全球首创能用4090推理 昆仑万维开源2千亿稀疏大模型天工MoE (全球首创用英语怎么说)

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,是 首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。

开源地址:

Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请:

•模型权重下载:

•模型开源仓库:

•模型技术报告:

•模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理)

模型架构:

本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。

天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。

模型能力:

我们基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

技术创新:

为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:

1.Gating Logits 归一化操作

我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于被选中的 TOP-2 experts,增加 MoE 模型对于 top-2 的置信度:

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2.自适应的 Aux Loss

有别于传统的固定系数(固定超参)的 aux loss, 我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,我们希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

训练 Infra

如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU 38% 的训练吞吐,其中 MFU 以 22B 的激活参数计算理论计算量。

1. Expert> 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

一个最简单的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

2.非均匀切分流水并行

由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有 10% 左右的端到端训练吞吐提升。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

比较均匀切分和非均匀切分下的流水并行气泡:对于一个 24 层 Layer 的 LLM, (a) 是均匀切分成 4 个 stage,每个 stage 的 layer 数量是:[6, 6, 6, 6].(b) 是经过优化后的非均匀切分方式,切成 5 个 stage, 每个 stage 的 layer 数量是:[5, 5, 5, 5, 4] , 在中间流水打满的阶段,非均匀切分的气泡更低。

MoE Know-how

此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的 2 倍以上,那么选择 from Scratch 训练 MoE 会更好,否则的话,选择 Upcycling 训练 MoE 可以明显减少训练成本。

4090 推理

Skywork-MoE 是目前能在 8x4090 服务器上推理的最大的开源 MoE 模型。8x4090 服务器一共有 192GB 的 GPU 显存,在 FP8 量化下(weight 占用 146GB),使用我们首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合适的 batch size 内达到 2200 tokens/s 的吞吐。天工团队完整开源了相关的推理框架代码和安装环境,详情参见:

结语

我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面, 探索用更低的训练推理成本训更大更强的模型,在通往 AGI 的道路上贡献一点力量。

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
赢商网

赢商网汇集城市综合体、购物中心、社区商业、商业街、奥特莱斯、旅游地产最新资讯,依托于分布全国的专业采编团队、强大的行业资源和数据优势,致力于为中国商业地产和零售商业提供快速深入的资讯和行业研究服务。

学习小游戏,儿童学习小游戏,学习小游戏大全,4399小游戏

4399儿童学习小游戏大全收录国内外儿童学习益智游戏、儿童学习教育游戏、在线学习类小游戏等。好玩就拉朋友们一起来玩吧!

【发表网】杂志发表平台网站

发表云网(fabiao.com.cn)具有多年杂志订阅经验,主要从事期刊推荐,杂志订阅等服务,公司已合法取得《出版物经营许可证》等相关牌照,依法从事期刊订阅和学术增值服务。

生物在线

生物在线,生物谷网站旗下生物科研服务专业平台,生物在线围绕生物医药科研和开发领域,提供从各种仪器,试剂,耗材等产品,到技术服务方案等综合服务体系

武汉绿色建筑材料

一家绿色建筑材料、新型保温材料、节能、环保材料研发生产、销售及钢结构工程设计、制作、施工的专业化公司

车载CT出租

迈迈车载CT体检车租赁平台有移动CT体检车出租,DR体检车出租,健康体检车出租,医疗车出租

安全阀,

中百阀门有限公司是国内专业生产中百阀门有限公司,安全阀,弹簧式安全阀的厂家。公司所生产的中百阀门有限公司,安全阀,弹簧式安全阀质优价廉,远销多个国家和地区。

成都心理诊所

成都神经专科医院,成都哪些医院有心理专科,成都较好的心理医生在哪里 成都心理医生一般收费多少?成都棕南心理咨询中心汇集丰富经验的心理咨询专家,擅长各种青少年心理,儿童心理,心理表现,家庭问题,孩子教育,职场人际,个人成长,团体咨询,心理疏导,家庭咨询,危机干预,情绪问题,家庭关系,职场社交。

淘壶人

淘壶人系茶品类和收藏类的综合平台,提供宜兴紫砂壶、瓷器、建盏、银壶、铜器和茶叶等,并且销售收藏级别的老白茶、普洱茶等。平台开设有学堂、名家、百科等多个权威频道,提供职称、名人录等方便查阅。

VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器

东莞市广联自动化科技有限公司是专业的VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器供应商,主营产品有:VICKERS电磁阀,VICKERS溢流阀,ATOS比例阀,HYDAC压力继电器等,东莞市广联自动化科技有限公司不仅具有专业的技术水平,更有良好的售后服务和优质的解决方案,欢迎来电洽谈

在线学习,上文都网校

【文都网校】在线学习,上文都网校,文都教育旗下在线学习平台,提供考研辅导课程、英语四六级、国家医学考试、卫生职称、建筑工程考试、公务员教师等在线网络课程学习、培训辅导班以及相关视频资料。

全局底部横幅