对话 十万卡集群 的必要性 从背景到技术储备 深入解析建

文章编号:36027 资讯动态 2024-11-30 AI 百度 人工智能

前不久,马斯克旗下的xAI122天建成十万卡集群,也让外界意识到算力集群对AI的重要性。

之前坊间还流传一句话:服务器集群的规模越大,其训练出来的人工智能表现就越出色。

在这波浪潮之下,全球科技巨头纷纷投入巨资建设高性能AI计算集群,以提升AI算法的效率和能力。谷歌推出了其AI Platform,依托多模态生成式AI模型GeMini,大幅提升了在文本、图像、音频和视频处理上的能力。微软的Azure AI Compute Cluster整合了最新AI技术,为开发者提供了从数据处理到模型训练的全方位支持。(添加微信Who123Start,解锁独家科技内幕和行业趣闻)

作为国内最早推出大模型之一的百度,也展现出其强大的创新能力。11月6日,在百度智能云举办的百舸媒体沙龙,深入探讨“十万卡集群”的技术创新、实施过程及其对AI行业的推动作用,并邀请百度杰出系统架构师、百度AI计算部负责人王雁鹏在现场做了分享和交流。

以下是媒体与三位嘉宾在会上的对谈实录,在不改变原意的情况下做了编辑和调整:

Q:百舸的客户群是哪些?重点的行业客户是否之前有一些成功案例可以来分享?

A:我们的客户主要分为两类。一类是大模型创企,他们需要万卡规模的计算能力,因而对快速建设和成本控制有较高的需求。这类客户虽然数量较少,但其需求非常明确;

另一类是典型的互联网客户,他们的需求规模通常在千卡到5000卡之间。这些客户包括教育行业的公司

这些互联网客户的主要需求是利用他们大量的自有数据进行后期训练(Post Train),以适应各种场景和优化,从而构建他们的数据飞轮。目前,这些训练需求依然是我们的主要业务,而推理需求相对较少。这也解释了为什么业界对AI算力落地效果仍存疑虑。预计在今年或明年,算力需求仍将以训练为主,而推理和SFT(小规模微调)的长尾客户将会增多,但总体资源需求仍低于头部客户。

Q:百舸客户的主要需求和痛点是什么?我们是如何解决的?

A:各类客户的需求其实有很多共通之处,我们可以一层层来分析。

1. 基础设施层面:这些客户首先需要一个强大的网络硬件互联架构。企业在尝试自行搭建大规模集群时,常常会遇到网络上的难题。我们的任务是为他们提供更好的网络硬件互联架构,使他们能够成功搭建一个大规模的计算集群。

2. 系统稳定性:没有经验的客户在自行搭建系统时,常会遇到有效训练时间过低的问题。这些稳定性问题是客户面临的第二大难题,我们需要帮助他们提高系统的可靠性和有效训练时间。

3. 加速框架:在提供加速框架方面,我们帮助客户优化并行策略,提升性能。通过更好的框架,我们能显著提升计算速度,解决加速问题。

4. 资源利用率:客户购买大量资源后,需要有效利用这些资源。他们可能既有推理任务又有训练任务,最初可能是为训练任务购买资源,但随后也需要利用这些资源进行推理。我们通过任务混合部署,提升资源利用率,确保资源能够被高效利用。

Q:您刚才花很大篇幅讲跨地域网络问题,能否举例说明实际效果?

A: 跨网络问题主要涉及两个方面:一是当进行十万卡规模的部署时,确实需要跨地域的支持;二是我们云服务的能力。举例来说,我们可以在云上两个机房同时部署计算任务,但客户在使用时完全感知不到差异。例如,即使客户使用的是5000卡的规模,我们在不同地点分配资源,但使用体验依然一致,这是我们的一大优势。

Q:面对不同客户需求,如1000到5000卡的规模,如何确保任务级别的混合调度的效率提升?

A: 混合调度我们已经做了许多工作,实质上是通过混合集群实现不同特征的工作负载的混合。

例如,推理任务有波峰波谷,波峰时使用的资源更多,波谷时使用较少;而训练任务则需要固定数量的计算卡(如1000卡),如果资源不足,比如仅有990卡,任务将无法运行。

为了解决这些问题,我们提供了一个非常灵活的队列机制,将业务视为虚拟队列,并配置优先级策略。这些队列根据实际情况动态调整资源分配,当资源不再需要时,可以被其他队列的任务抢占,从而提高资源利用率。此外,我们的框架能够自动重新分配并行策略。例如,一个需要1000卡的任务,在资源不足时(如仅有900卡),能够调整并行策略以继续运行,从而确保任务的连续性和有效性。

Q: 请详细聊一下Checkpoint环节,大家有不同的策略,可能有些效果更好,有些则影响训练有效时间和成本,我们在这方面是怎么做的?

A: 原来的Checkpoint策略是隔一段时间创建一个Checkpoint,在故障发生后恢复。但是,这种方法的缺点是,如果每小时创建一次Checkpoint,出现故障时通常会浪费一半的时间,即30分钟。因此,我们希望Checkpoint越密集越好,但这也带来新的问题。

最初的Checkpoint策略需要停止训练,将数据写入存储,这会耗费大量时间,因为存储带宽有限。当时停下来写Checkpoint需要几分钟,这显然无法接受,尤其在Checkpoint频繁时。

第一阶段:改进为异步Checkpoint,训练过程不中断,先将数据复制到内存,然后异步写入存储。这样可以缩短Checkpoint时间,从原来的两小时一次缩短到每30分钟一次。但依然存在瓶颈,如存储带宽限制。

第二阶段:引入触发式Checkpoint。在正常情况下不创建Checkpoint,只有在故障发生时才创建。很多GPU故障不会导致数据丢失,可以在故障点恢复数据并存储。这种方法在大多数情况下有效(95%以上),仅在传统Checkpoint保留的情况下无回退和浪费。

对话|从背景到技术储备:深入解析建“十万卡集群”的必要性


本文地址: https://www.gpxz.com/article/1555739f9a1b6f8dd588.html
全局中部横幅
全局中部横幅
失忆商城网上在线购买药平台网站渠道喷雾情喷剂用品货到付款官网

失忆商城网上在线购买药平台网站渠道喷雾情喷剂用品货到付款官网【—f8w5.com—】强效正品购物平台批发价格在线订购专卖女用口服无色无味强效类药品交易正品网店渠道批发价格订购物平台联系方式催听迷安眠药货到付款商城网上购买网站在线售卖喷雾用品

114网址大全114link.com

114网址大全114link.com-114网址导航;一个免费网站收录、网址导航、软文推广、文章免费发布、网站免费收录、网站快速提交收录、外链推广等服务。

上海嘉今自动化设备有限公司

金属检测机,自动检重秤,重量分选机

冷冻蛋糕

冷冻蛋糕,冷冻蛋糕厂家,冷冻慕斯蛋糕,冷冻西点,冷冻法式蛋糕,苏州馥斓思薇食品有限公司

日常祝福问候语

(青痞短文学)—为大家整理抖音搞笑说说短句爆笑,人生哲理句子精辟简短,微信日常祝福短信,沙雕评论长文字,随心走的唯美句子,高情商的撩妹对话,无奈伤心绝望的句子,励志激励自己上进句子等。

卫生杀虫剂,卫生杀虫剂厂家,卫生防蛀剂品牌,气雾杀虫剂厂,气体杀虫剂,中山市金鸟化工有限公司

中山市金鸟化工有限公司一直致力于提供各种优质的卫生杀虫剂,卫生防蛀剂,杀虫气雾剂,在卫生杀虫剂研究领域始终走在世界前列,致力于创建健康、清洁的卫生环境。产品质量保证,欢迎咨询。

好玩的手机游戏下载

游饭天堂是面向手机游戏玩家的综合门户,提供有趣有态度的最新手游内容。汇聚手游社区、热门手游礼包,新游、泛娱乐、手游排行榜等,让你get最新手游、分享你的热辣点评。如果您觉得游饭天堂还不错的话,请分享给您的朋友吧!

孝义市梧桐煤化工园区产业服务平台

孝义市梧桐煤化工园区位于吕梁市的南大门,是孝义经济开发区“一区五园”的核心组成部分,也是山西省规划的四个焦化集中发展区之一

青岛中微量元素肥和生物刺激素肥料供应公司

青岛索纳米进出口有限公司是一家专注作物营养及健康管理的涉外技术型公司,主营:生物刺激素肥料、亚磷酸肥料、中微量元素肥料、大量元素水溶肥等产品,质量可靠,欢迎广大客户前来咨询洽谈。

七设

七设(7she.cn),一个专业的摄影后期处理设计平台,日均设计超过上千张人像摄影样片。七设设计平台为影楼、旅拍、个人用户提供在线发布设计需求,设计公司在线处理跟踪客户设计信息等服务系统。

原子之心

原子之心是一款第一人称视角的动作射击类游戏。游侠网原子之心游戏专区为大家带来最新的中文版下载,第一手资讯信息,详细的游戏攻略秘籍,专业的汉化补丁,最全的修改器及工具,高清的壁纸截图等,致力于给玩家一个最好的游戏体验。

全局底部横幅