万卡集群 进入AI核心圈的入场券 (万集卡怎么进不去了)

OpenAI的单点集群大概5万张卡,谷歌2.6万张卡,Meta2.45万张卡。

万卡集群,进入AI核心圈的入场券

顶级的AI公司已经为这场“暴力美学”的竞赛,设定了单点集群万卡的门槛。

华为昇腾AI集群规模在去年7月已经扩展至16000卡。去年10月科大讯飞启动万卡集群算力平台“飞星一号”。

今年3月,天翼云上海临港国产万卡算力池启用。4月,中国移动宣布今年将商用3个自主可控万卡集群。

摩尔线程创始人兼CEO张建中在2024世界人工智能大会(WAIC)前夕的摩尔线程AI DAY 暨万卡智算集群解决方案发布会上表示, “AI主战场,万卡是最低标配。”

可实现万卡集群至少面临6个层面的挑战,国内公司如何实现国产算力的万卡智算集群?

最近两年火爆的生成式AI,被许多人称为“暴力美学”。

也就是在数据量足够大、模型参数数量大到一定程度,模型的精度、准确度会出现智能涌现会,突破传统大模型的准确度。

比如,在自然语言理解场景,当算力参数量和数据量综合算力达到10的23次方时,准确度有极大的飞跃。

万卡集群,进入AI核心圈的入场券

这个规律被称作Scaling Law。 与Scaling Law相伴的是对算力的指数级增长。

比如训练GPT4,大概需要1千张H100的算力,而如果使用A100则需要3万张。

“GPT5需要的算力是10万卡。”张建中认为。

这是基于假设Scaling Law按照线性比例成长,估算参数、数据量和算力之间的关系。

从GTP3到GPT4,模型的参数从百亿到万亿,100倍的参数增长,数据量也从几TB到几十TB,是10倍的提升,两者一乘,整个算力的需求就是1000倍的提升。

满足Scaling Law的唯一办法就是建立一个单点超大规模算力集群。

“只有这样,才可以把这个大模型在一个地方,一个网络,单节点之内把它训练完成。”张建中指出。

假设训练一个5000亿参数的模型,15TB的数据,如果使用1000P的集群,三年都训练不完。 如果要在一个月内,甚至1-2周内训练完5000亿参数的模型,至少要1万P的算力集群。

万卡集群,进入AI核心圈的入场券

“从今年开始,所有智算中心万卡是最低标配,万卡以上的智算中心才有价值。”张建中认为。

Scaling Law持续奏效的同时,还不能忽视算法和架构的演进。

目前,Transformer架构虽然是主流,但新兴架构如Mamba、RWKV和RetNet等不断刷新计算效率,加快创新速度。

“有公司专门为Transformer架构做加速计算,这个创意很好,但如果很容易实现一定会被融合到GPU当中,成为GPU当中的Transformer引擎。我们相信未来还会出现各种架构的变种, 要支持不停出现的新框架,只有一个办法,就是通用且能持续发展的计算平台。 ”张建中表示。

那就应该建设一个万卡规模加上通用可扩展的智算中心,这面临众多挑战。

万卡智算中心的6大难题

有统计数据,2024年国内有上百个在建的智算中心。这是一项超高额的投入, 建设几万P的智算中心成本高达几十亿,更大算力规模则需投资上百亿。

“连市场客户都没有就盲目建设智算中心肯定不对,不是所有人都应该去建算力中心,应该由专业的人干专业的事。”张建中进一步表示,“智算中心是否好用,能否通用,能不能稳定运行,有没有能力运营都是建设智算中心需要考虑的事情。”

很多客户喜欢喜欢DIY,但张建中建议不要太多DIY,而是采用整体解决方案,这样集群买回去之后马上就可以用起来,能够避免风险。

特别是从千卡到万卡集群,不是简单的堆叠,复杂度指数级增加, 国产 千卡/万卡超级系统工程面临着6大难题:包括超大规模组网互联、集群有效计算效率、训练高稳定性与可用性、故障快速定位与可诊断工具、生态Day0级快速迁移、未来场景通用计算。

万卡集群,进入AI核心圈的入场券

“可以把万卡想象成一个万人团队,需要有非常强的沟通机制,才能协同的把一件事情完成。”摩尔线程CTO张钰勃说,“对于万卡集群,仅靠单卡算力还不够,提供匹配单卡算力的通讯也至关重要。”

卡间互联和交换机是关键。了解到, 摩尔线程千/万卡集群的卡间互联是自研的MTLink,和NVLink作用相同,目前已经演进到MTLink2.0版本。

“我们还没有交换机芯片,是用行业里的交换机芯片去搭建我们的集群。”张建中透露,“后期我们会自主研发,或者是和行业合作伙伴一起研发下一代大规模的交换机。”

互联之外的另一个难题是稳定性。

“集群规模越大越不稳定。”张建中对表示,“ 千卡集群故障率可能做到0.1%就可以,万卡集群要提升到0.01%甚至是0.001%, 这对硬件设计和生产制造都是很大的挑战。摩尔线程投入了很多,确保架构本身的稳定性,以及让芯片的平均无故障时间更长。”

散热也是提升万卡集群稳定性的关键,千卡集群还可以考风冷解决,万卡就需要液冷保证集群的稳定运行。

“还需要不同的容错机制,在出问题的时候硬件自动恢复,而不是靠软件。”张建中表示。

为此, 摩尔线程推出了智算中心全栈解决方案夸娥(KUAE) ,以全功能GPU为底座,构建了夸娥计算集群为核心的基础设施、夸娥集群管理平台(KUAE Platform)以及夸娥大模型服务平台(KUAE ModelStudio)的一体化交付的解决方案。

万卡集群,进入AI核心圈的入场券

夸娥智算集群也可以实现从千卡至万卡集群的无缝扩展。

夸娥国产万卡万P智算集群的差异化优势

全新一代夸娥智算集群实现单集群规模超万卡,浮点运算能力达到10Exa-Flops,大幅提升单集群计算性能,能够为万亿参数级别大模型训练提供坚实算力基础。

万卡集群,进入AI核心圈的入场券

同时,夸娥万卡集群达到PB级的超大显存总容量、每秒PB级的超高速卡间互联总带宽和每秒PB级超高速节点互联总带宽,实现算力、显存和带宽的系统性协同优化。

算力利用率(MFU)方面, 千卡夸娥集群MFU有50%多,万卡夸娥集群的MFU目标是60%。

稳定性层面,摩尔线程夸娥万卡集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,周均训练有效率在99%以上。

月级长稳训练远超行业平均水平,得益于摩尔线程自主研发的一系列可预测、可诊断的多级可靠机制,包括软硬件故障的自动定位与诊断预测实现分钟级的故障定位,Checkpoint多级存储机制实现内存秒级存储和训练任务分钟级恢复以及高容错高效能的万卡集群管理平台实现秒级纳管分配与作业调度。

夸娥智算集群还有一个对所有用户来说非常友好的特性——CUDA兼容。

“我们的产品跟国内外主流生态在兼容性方面做的很好, 开发者移植到夸娥集群几乎不需要修改代码,迁移成本接近0,可以在数小时之内就完成迁移工作。 ”张钰勃表示,“当然用户可能需要花数天的时间去调优性能,但整体的迁移成本很低,并不需要几周这么长的时间。”

在诸多的智算中心中,张建中认为摩 尔线程夸娥的差异化优势在于,是国内唯一一家用全功能GPU实现通用加速计算的公司。

万卡集群,进入AI核心圈的入场券

“摩尔线程有1000多人,我们花了4年时间,把GPU的图形能力、编解码能力、科学计算能力、人工智能训练推理能力都做了提升,我们希望能够搭建首个中国本土通用型的万卡集群。”张建中指出。

摩尔线程的GPU也几乎适配了所有国产cpu,这也是夸娥智算集群的差异化所在。

“我们与国内所有的CPU、操作系统一起打造了一个生态系统,叫PES联盟,形成一个本土化完整生态。”张建中说。

万卡集群,进入AI核心圈的入场券

不少人都知道摩尔线程的GPU能做图形渲染,却 忽视了基于摩尔线程全功能的GPU能够实现的AI功能。 摩尔线程的夸娥千卡集群,已经有包括无问芯穹、清程极智、360、京东云、智平方等合作伙伴。

在摩尔线程夸娥千卡集群上,360分别部署70亿、700亿参数大语言模型,全程软硬件即插即用,工作有效训练时间占比100%;全程稳定无软硬件故障,集群有效训练时间占比100%。

京东基于摩尔线程夸娥集群完成Chatglm2-6B、Qwen-14B、baichuan2-13B的大模型推理测试,Chatglm2-6B推理测试,S4000的单卡推理性能是RTX 4090D性能的1.26倍,其他两个模型,S4000性能均能达到RTX 4090D性能的90%左右。

夸娥万卡集群,摩尔线程与中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司,分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

接下来,夸娥万卡智算集群就将考验摩尔线程能够作为一家系统级公司,解决国内AI算力紧缺的难题。

张建中要带领摩尔线程做难而正确的事。

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/155c82c83c8aeb6de487.html
全局中部横幅
全局中部横幅
寿光银海气体有限公司

寿光银海气体有限公司成立于2006年,位于寿光经济开发区兴安路北首,本公司组成以来始终把产品质量和客户利益放在第一位,为客户提供一流的产品和服务,本着诚信为本、客户至上的经营理念,与众多新老客户确立了良好的合作关系、赢得了广大客户的赞誉和信任,取得...

百度智能云一念

智能创作平台基于百度领先的NLP、KG、多模态AI技术,从媒体内容生产的策采编审发全流程角度,推出智能策划,智慧采编,智能审校,科学评馈场景功能,为媒体工作者提供一站式的内容生产服务和工具,全面提升内容创作效率.

美金美国EB3移民

金征远皇家移民旗下独立品牌-美国EB3移民网,我们立足帮助美国EB3移民客户解决实质问题,提供一手信息,让客户在申请美国移民道路上有更多保障,关注我们了解最新、最全、美国EB3移民信息!

宜州区第一中学

宜州区第一中学校园网

聊城优智教育

聊城优智教育是一家专业电商培训学校,自成立以来专注抖音运营培训、视频剪辑培训、电商运营等培训课程,我们不仅讲授理论课程,更注重实战,所有课程包教包会,学会为止,报名咨询电话:15653112065

整形医院排行榜

整形医院排行榜,根据整形用户口碑收录全中国最好的整形医院,包括不限于整形外科医院、微整形医院、鼻子整形医院、眼睛整形医院、吸脂整形医院、修复整形医院。整形医院排行榜,秉承为客户服务公平公正原则,为整形客户求美决策推荐最好的整形医院。

黑河试车网

黑河市金融工作办公室是于2011年6月经市编委办批准设立的正处级事业单位,挂靠在市财政局。之前为黑河市金融工作领导小组办公室。下设金融工作科、农村金融科、资本运营科、融资担保科四个科室……

牛吧游戏

牛吧游戏(68apk.com)汇聚海量热门高福利手游,每日更新超值福利活动:登录即领稀有道具、充值返利高达300%、新手礼包免费送、独家限定皮肤抢先得……更有会员专属特权,助力玩家轻松登顶游戏巅峰!24小时客服在线答疑,让游戏不再孤单。来牛吧,用福利点燃激情,开启你的高光游戏时刻!

云端科技

云端科技致力于为全球企业提供稳定、安全、高效的云服务基础设施,助力企业数字化转型。

南京网站建设

南京广推网络科技有限公司,我们是一家专注企业网站建设、营销型网站建设、响应式网站建设公司!服务热线:13951950147

盖州网站建设

盖州网络公司提供网站建设、软件开发、APP定制、微信小程序开发、网页设计制作、产品SEO排名优化、网络推广、域名注册、ssl证书、升级改版、安全维护、ICP备案和技术支持!

宜昌水泥顶管

宜昌市西陵区智勇水泥制品厂(15090892318)主营护坡砖、透水砖、草坪砖、水泥顶管、水泥管、pc砖、井室、井筒等产品,价格实惠。


全局底部横幅