全球首创能用4090推理 昆仑万维开源2千亿稀疏大模型天工MoE (全球首创用英语怎么说)

文章编号:36688 资讯动态 2024-11-30 昆仑万维 4090推理 大模型天工MoE

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2024年6月3日,昆仑万维宣布开源 2 千亿稀疏大模型 Skywork-MoE , 性能强劲, 同时推理成本更低。Skywork-MoE 基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,是 首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE大模型,也是首个支持用单台 4090 服务器推理的开源千亿 MoE大模型。

开源地址:

Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请:

•模型权重下载:

•模型开源仓库:

•模型技术报告:

•模型推理代码:(支持 8x4090 服务器上 8 bit 量化加载推理)

模型架构:

本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。

天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。

模型能力:

我们基于目前各大主流模型评测榜单评测了 Skywork-MoE,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力在行业前列,接近 70B 的 Dense 模型。使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

技术创新:

为了解决 MoE 模型训练困难,泛化性能差的问题,相较于 Mixtral-MoE, Skywork-MoE 设计了两种训练优化算法:

1.Gating Logits 归一化操作

我们在 Gating Layer 的 token 分发逻辑处新增了一个 normalization 操作,使得 Gating Layer 的参数学习更加趋向于被选中的 top-2 experts,增加 MoE 模型对于 top-2 的置信度:

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

2.自适应的 Aux Loss

有别于传统的固定系数(固定超参)的 aux loss, 我们在 MoE 训练的不同阶段让模型自适应的选择合适的 aux loss 超参系数,从而让 Drop Token Rate 保持在合适的区间内,既能做到 expert 分发的平衡,又能让 expert 学习具备差异化,从而提升模型整体的性能和泛化水平。在 MoE 训练的前期,由于参数学习不到位,导致 Drop Token Rate 太高(token 分布差异太大),此时需要较大的 aux loss 帮助 token load balance;在 MoE 训练的后期,我们希望 Expert 之间仍保证一定的区分度,避免 Gating 倾向为随机分发 Token,因此需要较低的 aux loss 降低纠偏。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

训练 Infra

如何对 MoE 模型高效的进行大规模分布式训练是一个有难度的挑战,目前社区还没有一个最佳实践。Skywork-MoE 提出了两个重要的并行优化设计,从而在千卡集群上实现了 MFU 38% 的训练吞吐,其中 MFU 以 22B 的激活参数计算理论计算量。

1. Expert> 昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

一个最简单的 EDP 的例子,两卡情况下 TP = 2, EP = 2, 其中 Attention 部分采用 Tensor Parallel , Expert 部分采用 Expert Parallel

2.非均匀切分流水并行

由于 first stage 的 Embedding 计算和 last stage 的 Loss 计算,以及 Pipeline Buffer 的存在, 流水并行下均匀切分 Layer 时的各 stage 计算负载和显存负载均有较明显的不均衡情况。我们提出了非均匀的流水并行切分和重计算 Layer 分配方式,使得总体的计算/显存负载更均衡,约有 10% 左右的端到端训练吞吐提升。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

比较均匀切分和非均匀切分下的流水并行气泡:对于一个 24 层 Layer 的 LLM, (a) 是均匀切分成 4 个 stage,每个 stage 的 layer 数量是:[6, 6, 6, 6].(b) 是经过优化后的非均匀切分方式,切成 5 个 stage, 每个 stage 的 layer 数量是:[5, 5, 5, 5, 4] , 在中间流水打满的阶段,非均匀切分的气泡更低。

MoE Know-how

此外,Skywork-MoE 还通过一系列基于 Scaling Laws 的实验,探究哪些约束会影响 Upcycling 和 From Scratch 训练 MoE 模型的好坏。

昆仑万维开源2千亿稀疏大模型天工MoE,全球首创能用4090推理

一个可以遵循的经验规则是:如果训练 MoE 模型的 FLOPs 是训练 Dense 模型的 2 倍以上,那么选择 from Scratch 训练 MoE 会更好,否则的话,选择 Upcycling 训练 MoE 可以明显减少训练成本。

4090 推理

Skywork-MoE 是目前能在 8x4090 服务器上推理的最大的开源 MoE 模型。8x4090 服务器一共有 192GB 的 GPU 显存,在 FP8 量化下(weight 占用 146GB),使用我们首创的非均匀 Tensor Parallel 并行推理方式,Skywork-MoE 可以在合适的 BATch size 内达到 2200 tokens/s 的吞吐。天工团队完整开源了相关的推理框架代码和安装环境,详情参见:

结语

我们希望本次开源的 Skywork-MoE 模型、技术报告和相关的实验结果可以给开源社区贡献更多的 MoE 训练经验和 Know-how,包括模型结构、超参选择、训练技巧、训练推理加速等各方面, 探索用更低的训练推理成本训更大更强的模型,在通往 AGI 的道路上贡献一点力量。

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/fa86e338dcad60ef4090.html
全局中部横幅
全局中部横幅
语音识别

百度语音识别,提供业界领先的技术,让您的应用长上耳朵.支持车载导航、智能家居、社交聊天、应用助手、娱乐游戏等,助力企业实现多场景智能语音交互.

进出口网

进出口网[Chinainout.com]-是进口到中国的服务平台,是全球新型跨境电子商务服务平台。旨在为全球进出口企业搭建一个全面高效的外贸服务平台,为国内外企业提供高质量高水准的贸易相关增值服务、供求信息服务和业务推广服务等相关服务,促进企业成交,为高品质的国外企业产品服务,满足中国市场消费者的需求,推动世界经济发展。

出国留学申请

托普仕留学为想要出国留学的同学提供美国、英国、加拿大和新加坡的出国留学申请、选校、选专业、备考以及文书写作等服务,帮解决留学申请过程中遇到的各种问题,助力万千学子拿到名校offer,为同学们申请名校保驾护航。

企业微信scrm

企鲸客定制开发的scrm企业微信是新一代CRM,企业微信scrm源码开发,有企业微信scrm系统软件,私域流量,企微scrm管理系统,企业微信客户管理系统,销售管理系统等工具,可以实现客户精细化管理和运营,会话存档,渠道活码,群营销,拓客裂变,话术管理,二次营销,用户画像和sop打造.

青岛网易企业邮箱

_网易企业邮箱|163企业邮箱|网易企业邮箱热线:186-5321-9163

GUUMINN

云南宫明茶业有限公司旗下包含茶品牌有GUUMINN/宫明、同普号、聘元昌、明巅星等,同时也包含茶具品牌明宫坊和文化品牌。主营原生态普洱茶,凤庆滇红茶等健康茶品,茶具和茶叶周边文化产品,茶品均通过瑞士SGS多达300项健康监测CE认证。“宫”字,意指古代宫廷的高贵和福气,更是代表着中国人对家的期盼,祥和及富贵之意。“明”字,则是人生的大境界,也是宫明品牌一直追逐和呈现的智慧人生的内在价值。经过5年发

7k77游戏网

7k77为你提供炙手可热的网络游戏攻略、热门游戏资讯、人气网略游戏大全、是游戏攻略行业的整理者

天津富力中心

天津富力中心,富力中心写字楼,天津市河西区合肥道11号,租赁部电话022-88180080,写字楼出租,出租面积,物业电话,入住企业。

武汉和信物业管理有限公司

武汉和信物业管理有限公司创建于2001年3月,隶属于湖北人信房地产开发有限公司,国家壹级物业管理资质,注册资本500万元。

三宫六院

三宫六院,作为专业的模拟人生类游戏模型绘图设计原创模组交流平台,建立十几年汇聚并培养了众多游戏模型原创作者,引导着国内作者走向自立自强之路,教育着年轻人学习2D和3D设计知识并鼓励原创设计作品的交流交易。在解决就业问题的同时,为众多作者创造了展示自我、赢得尊重、收获回报的机会。这里有纯粹的创造精神,丰富的资源共享,融洽的游戏氛围,舒适的交流体验。坚持积极开拓新的业务和新的发展方向,为中国原创界添砖加瓦,为年轻人实现自己的梦想和创造提供契机。

全局底部横幅