Graviton两年内为AWS提供超过50%的CPU算力 打破英特尔对市场节奏的掌控 (gravitational)

文章编号:43211 资讯动态 2024-12-09 Graviton 英特尔 Trainium 亚马逊

在超大规模和云计算厂商规模较小、Arm未能抢占数据中心市场以及AMD尚未走上复兴之路的时候,英特尔掌控着新计算引擎进入数据中心的节奏。

局势总是在变化。本周,英特尔的CEO帕特.基辛格(Pat Gelsinger)宣布离职,相比之下,亚马逊云科技(AWS)在拉斯维加斯举办年度re:Invent大会,线下参会人数达到6万,而线上人数高度40万人。谁在控制超大规模企业和云计算制造商的技术推出步伐,似乎有了新的答案。

对于AWS而言,他们也可以控制新技术的发布节奏,因为他们不需要像芯片厂商一样,进行定期的产品迭代。他们不需要像英特尔、AMD和英伟达那样,把计算引擎卖给ODM和OEM,而是直接向客户出售云上产品。显而易见的是,这是一项更容易的业务。

在re:Invent大会上,AWS以及其母公司亚马逊高管所带来的演讲,让外界对于他们的计算引擎有了新的期待,比如Graviton5、Inferentia3及Trainium3。

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

Trainium3使用3nm工艺蚀刻,相较于Trainium2能效提高40%、性能翻倍。AWS的新闻稿中表示,Trainium3 UltraServers的性能将是Trainium2 UltraServers的4倍,这意味着它们将从使用Trainium2的16台设备扩展到使用Trainium3的32台设备。

AWS CEO马特.加曼(Matt Garman)称,Trainium3将于2025年晚些时候推出,这意味着大概会在re:Invent 2025年会议发布这款产品。早在6月份,就有一些关于AWS高管确认Trainium3将突破1000瓦的传言,但这点并不出乎外界的意料,英伟达的Blackwell B200 GPU的峰值功率是1200瓦。

真正出乎外界意料的是,在上个月的SC24超级计算会议上,针对HPC应用的Graviton4E仍未推出,这与AWS在2021年11月推出的普通Graviton3和2022年11月推出的增强版Graviton3E的过往速度相比有所差异。2023年11月发布的Graviton4可以说是市场上基于Arm架构最好的服务器CPU之一,当然也是适用面最广的CPU。

AWS的CPU、人工智能加速器和DPU没有任何年度更新的压力,如果仔细观察英伟达和AMD的GPU路线图,就会发现他们的核心产品仍然是每两年发布一次,第二年会在第一年发布的GPU上进行内存升级或性能调整。

AWS在芯片领域的迭代周期大概是两年,其间会有一些波动。Graviton1实际上是一个基于Nitro架构的DPU卡,可以忽略不计。正如AWS公用事业计算高级副总裁彼得.德桑蒂斯(Peter DeSantis)在2018年发布的主题演讲中所说的,Graviton1只是“进入市场的一个信号”,主要用于验证客户需求。2019年推出的Graviton2, AWS采用了台积电的现代7纳米工艺,并使用了Arm的Ares N1内核,设计了一款64核CPU,与运行在AWS云上的英特尔和AMD的X86 CPU相比,性价比高出40%。

2021年,采用Arm Zeus V1内核的Graviton3问世,同样是64个内核却可以承担更多的任务。2023年,Graviton4问世了,这款芯片采用了台积电4纳米工艺,在插槽上塞入96个Demeter V2内核,与12个内存带宽为537.6 GB/秒的DDR5内存控制器搭配使用。与Graviton3相比,Graviton4的单核性能提高了30%,内核数量增加了50%,性能提高了2倍。根据我们的定价分析,产品的性价比提高了13%到15%。在实际的基准测试中,Graviton4带来的性能优化有时能达到40%。

AWS处理器投入的资金至少需要两年才可以收回。因此,在re:Invent大会上期待任何关于Graviton5的新消息都是不现实的。尽管如此,AWS的高管们还是会吊一下市场的胃口。

AWS的高管在主题演讲中提供了一些关于Graviton的数据。AWS计算和网络服务副总裁戴夫.布朗(Dave Brown)展示了这张图表,它在一定程度上解释了为什么英特尔最近几个季度的财务状况如此糟糕。粗略地说,AWS的四项核心服务(Redshift Serverless和Aurora数据库、Kafka的Managed Streaming和ElastiCache搜索)大约有一半的处理是在Graviton上运行的。

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

布朗称:“最近,我们达到了一个重要的里程碑,在过去的两年里,我们数据中心超过50%的CPU算力都来自Graviton,这比其他所有类型的处理器加起来还要多。”

这正是微软多年前所声称想做成的事情,而这也是AWS所期待达成的目标。从长远来看,X86是一种传统的平台,其价格也是传统的,就像之前的大型计算机和RISC/Unix。RISC-V也许最终也会这样颠覆Arm架构(开源的ISA与可组合的模块似乎是必由之路,就像Linux开源系统让Windows Server变成传统平台的)。

加曼让我们对AWS内部的Graviton服务器群规模有了一个大致的了解:“Graviton正在疯狂地增长,2019年,整个AWS的业务规模为350亿美元,而现在,单单Graviton运行的业务规模就与2019年整个AWS业务规模一样,这是非常快的增长。”可以估计的是,Graviton服务器集群的增长速度比AWS整体业务的增长速度还要快,而且幅度可能非常大。这对英特尔的伤害远大于对AMD的伤害,因为AMD多年来一直拥有比英特尔更好的X86服务器CPU。

Trainium系列,是否会成为英伟达和AMD之外的选择?

加曼谈论Trainium3的唯一原因是,人工智能训练对高性能计算的需求增长得比任何其他计算引擎快得多。面对英伟达在2025年加大其Blackwell B100和B200 GPU的产能,以及AMD扩大其Antares MI300系列,AWS如果想让客户将他们的人工智能工作负载移植到Trainium上,就必须在市场上展现出大力推行Trainium系列的决心。

在明年的re:Invent大会之前,希望能够看到AWS发布关于Trainium3的一些新优化,因为市场上的竞争对手太多,以谷歌和微软为首的一些公司将在2025年推出他们旗下的人工智能加速器。

就像Graviton系列一样,从现在开始,Trainium系列的更新周期或许将变为两年一更新。这些产品的研发投入都非常高昂,因此AWS要实现财务效益必须将Trainium的开发成本摊销到尽可能多的设备上。与Graviton一样,我们认为AWS的Trainium达成这一目标的日子不会太遥远。从长远来看,这对英伟达和AMD来说不是好事,特别是如果谷歌、微软、腾讯、百度和阿里巴巴都采取同样的行动。

AWS还没有愚蠢到试图在GPU加速器市场上与英伟达直面抗衡,但与谷歌的TPU、SambaNova的RDU、Groq 的 GroqChip和Graphcore的IPU一样,这家云计算商同样认为自己可以构建一个系统阵列来进行人工智能训练和推理,并为云计算客户带来差异化体验和附加值产品,与购买英伟达相比,客户购买AWS的产品可以节省成本并且掌握更多的主动权。

正如我们上面所指出的,AWS高管对Trainium3并没有透露太多的信息,但他们对Trainium2在UltraServer中的使用到非常兴奋。

今年的re:Invent大会上,AWS更多地介绍了使用Trainium2加速器的系统架构,并展示了基于这些加速器构建的网络硬件,以扩展和扩展其人工智能集群。下面是德桑蒂斯展示的Trainium2:

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

正如我们去年报道的那样,Trainium2似乎在单个封装上放置两个芯片互连,可能使用NeuronLink die-to-die内部互连技术,以在其共享的HBM存储器上一致地工作。Trainium2服务器有一个节点,该节点带有一对主机处理器并与三个Nitro DPU相连,如下所示:

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

这是计算节点的俯视图,前端有四个Nitros,后端有两个Trainium2s,采用无线设计以加快部署速度。

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

两个交换机托架,一个主机托架和八个计算托架组成了一台Trainium2服务器,该服务器使用2TB/秒的NeuronLink电缆将16个Tranium2芯片互连成2D环面配置,每个设备上96GB的HBM3主内存都会与其他设备共享。每台Trainium2服务器具有1.5TB的HBM3内存,总内存带宽为46TB/秒(即每个Trainium2卡略低于3TB/秒)。此节点在密集FP8(一种浮点数表示格式)数据上的性能为20.8千万亿次浮点运算,在稀疏FP8数据上的性能为83.3千万亿次浮点运算。

AWS将四台服务器相互连接以搭建Trainium2 UltraServer,该服务器在64个AI加速器中拥有6TB的HBM3内存容量,内存带宽总计为184TB/秒。该服务器具有12.8Tb/秒的以太网带宽,可使用EFAv3适配器进行互连。UltraServer服务器在密集FP8数据上的运算速度为83.2千万亿次浮点运算,在稀疏FP8数据上的运算速度为332.8千万亿次浮点运算。下面是德桑蒂斯对Trn2 UltraServer实例硬件的展示:

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

在布满电线的机架顶部,隐藏着一对交换机,它们组成了3.2TB/秒的EFAv3以太网网络的端点,该网络将多个Tranium2服务器相互连接,以创建UltraServer服务器,并将服务器与外部世界连接。

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

这还不是整个网络架构。如果你想运行大规模的基础模型,需要的加速器将远远不止64个。为了将成千上万的加速器连接在一起,可以进行大规模训练,AWS设计了一种基于以太网的网络结构,名为10p10u,其目标是在延迟不到10微秒的情况下,为整个网络提供每秒数十PB的带宽。下面是10p10u网络结构机架的样子:

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

由于原先服务器内部的电线非常复杂,AWS研发了一款光纤主干电缆,将需要使用的电线数量压缩为原先的十六分之一。其原理是将数百个光纤连接放在一条较粗的管线中,这样做的好处是让服务器内部的架构更为简洁。如下图所示,右边的机架使用的是光纤主干电缆,它更简洁小巧。更少的连接和线路管理意味着更少的错误,当你试图快速构建人工智能基础设施时,这一点很重要。

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

据悉,这种专门用于人工智能工作负载的10u10p网络由于其优异的表现正在被大规模采用。德桑蒂斯展示了它与AWS创建的老式以太网网络相比的增长速度有多快:

Graviton两年内为AWS提供超过50%的CPU算力,打破对市场节奏的掌控

假设这是累积链接数(有效的计算),旧的Euclid网络结构(大概是100Gb/秒)在四年内逐渐增加到近 150 万个端口。名为One Fabric的网络与10u10p网络在2022年年中大致同时推出,我们猜测其中One Fabric使用400Gb/秒以太网,而10u10p基于800Gb/秒以太网。One Fabric有大约100万个链接,而10u10p有大约330万个链接。

加曼表示,与基于AWS云上的GPU实例相比,Trn2实例的性价比将提高30%到40%。当然,AWS应该加大拉开外部计算引擎与自家计算引擎之间的差距,保持这样的差距是Trainium抢占人工智能计算器市场的正确举措。

作为主题演讲的一部分,德桑蒂斯和加曼都谈到了一个代号为“Project Ranier”的超级集群,这是AWS正在为其人工智能大模型合作伙伴Anthropic建造的一个超级集群。截至目前,亚马逊已向Anthropic投资80亿美元,该集群主要用于训练下一代Claude 4基础模型。加曼说,“Project Ranier”将拥有数十万个Trainium2芯片,其性能将是训练Claude 3模型时所用机器的5倍。

本文由编译自:

原创文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/4fec8292f06f5d306723.html
全局中部横幅
全局中部横幅
舜宇光学科技

舜宇光学科技(集团)有限公司是中国领先的光学产品制造企业,具备全面的设计实力及专业生产技术,公司立足光电行业,以光学、机械、电子三大核心技术的组合为基础,大力发展光学、仪器、光电三大事业

四川网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

云南商标注册

云南励合知识产权专注于云南商标注册、版权登记、专利咨询、进出口经营权资质办理、自动进出口许可证、种植基地备案、原产地证备案办理等商务服务。

紫外交联仪,紫外透射仪,紫外灯

析浦(上海)科学仪器有限公司是专业从事实验室科学仪器自主研发、生产、销售和服务一体的企业,拥有专业的产品研发人员和销售服务团队。公司主营实验仪器有紫外交联仪、紫外透射仪、蓝光透射仪、紫外灯、GFP荧光手电筒、微生物污染扫描仪等,致力于让科学实验更简单,助力科学研究。

工业除湿机

安诗曼除湿机厂家是一家专业从事工业除湿机,家用除湿机及抽湿机的品牌生产厂家,主要产品:工业除湿机,工业加湿器,除湿机厂家,吊顶除湿机,转轮除湿机,防爆空调,地下室除湿机,除湿机生产厂家

西安封箱透明胶带定制

西安封箱胶带定制厂家推荐西安中森华茂实业有限公司其主要经营西安封箱胶带,西安外墙胶带,西安美纹纸胶带,西安透明胶带等一系列产品,及加工生产于一体.多年生产加工经验.相关设备20余台套.源头企业.厂家直销,在市场获得一致好评.价格合适,质量有保障.欢迎大家来电咨询!

深圳工业设计公司

橙子工业设计是智能产品工业设计和产品外观结构设计专家,业务范围立足智能电子行业,涵盖智能安防产品设计,智能家居产品工业设计,医疗器械产品外观设计,智能硬件消费类电子产品设计,交通警用电力行业产品定制设计,视频会议机智能音频产品外观设计,美容个护产品外观结构设计、宠物产品设计、灯具产品设计,钣金设计等诸多领域。

大师策

大师策-免费在线八字算命娱乐分享的网站,分享专业全面的命理知识,具体包括:八字、生肖、相术、风水、起名、择日、解梦等方面的内容。帮助您更好地了解和改善自己的命运,趋吉避凶,求福避祸,做好生命中每一个决策,让我们的人生走的更顺更远!

麦雪茄

麦雪茄网主要是收集整理分享雪茄相关的知识与信息,专门为雪茄爱好者发布新雪茄资讯、雪茄品牌大全、新品雪茄信息、古巴雪茄、中式雪茄、非巴雪茄、雪茄剪、大卫杜夫雪茄、长城雪茄、哈瓦那雪茄品牌。微:nanhu9181

无锡LED显示屏

22年时间专注于LED显示屏专业研发、生产,无锡地区LED光电显示领域综合工程运营服务商,是一家集LED电子显示屏产品开发、设计、制造和销售于一体的高科技企业.

手机游戏

517游戏网为用户带来最新手游、最新应用下载,提供当下热门游戏、热门app排行榜,旨在让用户能够找到任意需求的下载资源。


全局底部横幅