GTC 架构GPU性能暴涨30倍 Blackwell 2024 英伟达没给追赶者一点机会 (gp架构)

去年英伟达市值突破1万亿之后,这家加速计算公司在全球范围内就吸引了越来越多的关注。

今年2月,英伟达的市值一度突破2万亿,让这家加速计算公司的热度再次攀升,也让今天在加州圣何塞举行的GTC 2024挤满了来自全球各地超11000名与会者。

未来将是可生成的,这就是为什么这是一个全新的行业。 NVIDIA 创始人兼首席执行官黄仁勋开场就说,“我们需要一种全新的计算方式——由此我们才可以继续扩展,继续降低计算成本,并在保证可持续性的同时继续进行越来越多的计算。”

黄仁勋说道,“ 加速计算已到达临界点,通用计算已失去动力。 与通用计算相比,加速计算使每个行业都可以大幅提速。”

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

全新的行业需要更大的模型,更大的多模态AI需要更大的GPU

黄仁勋从口袋里掏出一块全新的Blackwell芯片,将它与Hopper芯片并排举起,后者显得小了一些。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

基于NVIDIA GB200构建的DGX SuperPOD,相比英伟达前代H100 GPU构建的系统,大语言模型性能飙升了30倍,能够处理万亿参数的模型。

架构迭代带来如此巨大的性能提升,证明了英伟达依旧在加速计算的道路上飞速前进, 英伟达进一步拉大了与追赶者们距离。

英伟达还有更远大的目标,GTC2024上推出的NVIDIA NIM微服务,通过推理加速让生成式AI能够普及,这才是生成式AI商业价值更高的地方。

“下一波AI浪潮将是AI对物理世界的学习。”黄仁勋还有更长远的布局。

Blackwell 架构如何支撑10万亿参数模型需求?

最新的Blackwell 架构是两年前推出的Hopper架构的继承者,延续过去英伟达以科学家名字命名架构的方式,新架构是以一位加州大学伯克利分校的数学家 David Harold Blackwell 命名。这位数学家专门研究博弈论和统计学,是第一位入选美国国家科学院的黑人学者。

相比Hopper架构GPU,Blackwell架构GPU单芯片训练性能(FP8)是Hopper架构的2.5 倍,推理性能(FP4)是Hopper架构的5倍。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

要让Blackwell架构支撑高达10万亿参数的模型训练和实时 LLM 推理,需要一系列独特的技术。

先进的工艺和Chiplet技术就是关键之一, Blackwell架构GPU具有2080亿个晶体管, 采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造, 通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。

为了更好支持Transformer模型, Balckwell架构集成了第二代Transformer 引擎, 支持全新微张量缩放,集成于NVIDIA TensorRT-LLM 和NeMo Megatron框架中的NVIDIA动态范围管理算法,Blackwell将在新型FP4 AI推理能力下实现算力和模型大小翻倍。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

为了扩大Blackwell规模, NVIDIA构建了一款名为NVLink Switch的新芯片。 每个芯片可以以每秒1.8 TB的速度(几乎是上一代的10倍)连接四个NVLink,通过减少网络内流量来消除流量拥塞,帮助构建GB200。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

NVIDIA GB200 Grace Blackwell 超级芯片通过 900GB/s 超低功耗的NVLink芯片间互连,将两个 Blackwell NVIDIA B200 Tensor Core GPU 连接到 NVIDIA Grace CPU。

GB200是NVIDIA GB200 NVL72 的关键组件。

NVIDIA GB200 NVL72是多节点、液冷、机架级系统,将36个Grace Blackwell超级芯片组合在一起,其中包含通过第五代NVLink相互连接的72 个Blackwell GPU 和 36 个 Grace CPU,还内置 NVIDIA BlueField-3 数据处理器,可在超大规模 AI 云中实现云网络加速、组合式存储、零信任安全和 GPU 计算弹性。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

相较于同样数量的NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及25 倍的成本和能耗降低。

NVIDIA GB200 NVL72在单个机架中可实现720 petaflops 的 AI 训练性能和 1.4 exaflops 的 AI 推理性能。 该机器包含600,000个零件,重3,000磅(约1360.78公斤)。

黄仁勋介绍:“此时此刻,地球上也许只有三台百亿亿次浮点运算(exaflop)机器。而这是一个单一机架中的 1 个百亿亿次浮点运算AI 系统。”

要进一步实现对10万亿参数大模型的支持,需要更强大的DGX SuperPOD。

Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200(每个包含36 个 NVIDIA Grace CPU 和 72 个 NVIDIA Blackwell GPU)系统构建而成,采用新型高效液冷机架规模架构。

这个系统还需要通过GTC 2024发布的第五代NVIDIA NVLink,NVIDIA BlueField-3 DPU,NVIDIA Quantum-X800 InfiniBand 网络(为每块GPU提供每秒800 GB 的带宽),新一代 DGX SuperPOD 架构的网络计算能力提高了4倍,可扩展到数万个 GB200 超级芯片。

用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,可在 FP4 精度下提供 11.5 exaflops 的 AI 超级计算能力和 240 TB 的快速内存,并可通过额外的机架进行扩展。

2016 年,黄仁勋给OpenAI的DGX算力是 0.17Petaflops,现在DGX GB200的算力以 exaflop 计算。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

除了GB200,NVIDIA还发布了一款统一用于 AI 模型训练、微调和推理的通用 AI 超级计算平台 NVIDIA DGX B200 系统。

DGX B200是DGX 系列的第六代产品,使用风冷机架设计,包含 8 个 NVIDIA B200 Tensor Core GPU和2个第五代英特尔至强处理器。

DGX B200系统可提供144 petaflops(FP4精度)的AI性能、1.4TB的 GPU 显存和 64TB/s 的显存带宽,使得该系统万亿参数模型实时推理速度比上一代产品提升了 15 倍。

另外,DGX B200 系统也包含带有8个NVIDIA ConnectX-7 网卡和2个BlueField-3 DPU 的高性能网络,每个连接的带宽高达400 Gb/s,可通过 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 以太网网络平台支持更高的 AI 性能。

“未来,数据中心将成为 AI 工厂”,黄仁勋说,“AI 工厂的使命是创造收入,同时也创造智能。”

“生成式 AI 改变了应用程序的编写方式。”黄仁勋解释, 未来的公司会将精力放在组装 AI 模型, 赋予它们任务,给出工作产品示例,审查计划和中间结果,而不是编写软件。

GTC 2024上,NVIDIA NIM微服务推出,这是根据 NVIDIA 的加速计算库和生成式 AI 模型构建,提供基于 NVIDIA 推理软件的预构建容器,包括Triton 推理服务器和TensorRT-LLM,使开发者能够将部署时间从几周缩短至几分钟。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

“企业IT行业正坐在一座‘金矿’上,” 黄仁勋说道, “他们拥有多年来创建的所有这些令人惊叹的工具(和数据)。如果他们能把这个‘金矿’变成 AI 助手,就能给用户提供更多可能。”

NVIDIA 帮助领先的科技公司,包括 Cohesity、NetApp、SAP、ServiceNow 和 Snowflake 构建 AI 助手和虚拟助理。其它领域也正在采用。

在电信领域,NVIDIA推出 6G研究云,这是由 AI 和 Omniverse 支持的生成平台,它采用 NVIDIA 的 Sionna 神经无线电框架、NVIDIA Aerial CUDA 加速无线电接入网络和 NVIDIA Aerial Omniverse Digital Twin for 6G 构建。

在半导体设计和制造领域,NVIDIA 正在与 TSMC 和 Synopsys 合作,将计算光刻平台 cuLitho 投入生产,这一平台将把半导体制造中计算最密集的工作负载加速 40-60 倍。

黄仁勋还宣布推出NVIDIA 地球气候数字孪生Earth-2,可实现交互式高分辨率模拟,户在数秒内发布预警和最新预报,使用传统模型在CPU上运行需要耗时数分钟乃至数小时。

黄仁勋表示,AI 的最大影响将体现在医疗领域,NVIDIA 已经涉足成像系统、基因测序仪器,并与领先的手术机器人公司合作。

NVIDIA 正在推出一种新型生物学软件。 GTC 2024发布了二十多个新的微服务,使全球医疗企业能够在任何地方、任何云上利用生成式 AI 的最新进展。

下一波AI浪潮将是 AI 对物理世界的学习

黄仁勋说,“我们需要一个模拟引擎,以数字方式为机器人呈现世界,这样机器人就有了一个学习如何成为机器人的‘健身房’,我们称这个虚拟世界为 Omniverse。”

NVIDIA宣布将以API形式提供 NVIDIA Omniverse Cloud, 将全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展到整个软件制造商生态系统。

为了展示其工作原理,黄仁勋分享了一个机器人仓库的展示——使用多摄像头感知和追踪,看顾工人并协调机器人叉车,在整个机器人堆栈运行的情况下,这些叉车能够实现自动驾驶。

NVIDIA还宣布将把 Omniverse 引入 Apple Vision Pro 中, 通过新的 Omniverse Cloud API,开发者可以将交互式工业数字孪生流式传输到 VR 头显中。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

一些全球大型工业软件制造商正在采用 Omniverse Cloud API,包括 Ansys、Cadence、达索系统旗下 3DEXCITE 品牌、Hexagon、微软、罗克韦尔自动化、西门子和 Trimble 等。

“所有会动的东西都可能成为机器人,汽车行业将是其中的一个重要部分。”黄仁勋表示。

了解到,比亚迪已选择 NVIDIA 的下一代计算平台用于其自动驾驶汽车,在 DRIVE Thor 上构建其下一代电动汽车车队。昊铂、小鹏、理想汽车、极氪也已经宣布将在DRIVE Thor上构建其未来的汽车产品。

人形机器人也是机器人的重要方向。

为此 NVIDIA宣布了 Project GR00T(代表通用机器人 00 技术) ,这是一个为人形机器人设计的通用基础模型。

Blackwell 架构性能暴涨30倍,英伟达没给追赶者一点机会 |GTC 2024

GR00T 脱胎于英伟达的 Isaac 机器人平台工具,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场展示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

黄仁勋还推出了一款用于人形机器人的新型计算机 Jetson Thor,它基于 NVIDIA Thor 系统级芯片,并对 NVIDIA Isaac 机器人平台进行了重大升级。

Jetson Thor采用Blackwell架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器,以运行 GR00T 等多模态生成式 AI 模型。

如果用一句话总结GTC的全新发布,可以借用黄仁勋的“我们创造了为生成式 AI 时代而生的处理器。”

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
生活频道

360生活频道,包罗生活相关的方方面面,在这里你可以看到时尚、亲子、美食、健康、养生等相关资讯,通过快速实用的网址入口便捷到达您感兴趣的生活网站。

IIS7站长之家

IIS7站长之家创建于2018年6月3日。我们致力于研发各种类站长、安全运维需求的工具程序,及转发各种行业相关的最新资讯,还有我们认为的重要的相关技术文章,工具收藏等。。。

第三下载

第三软件为用户提供手机软件下载,常用的安卓应用,热门手机游戏下载,好玩的安卓游戏下载

酸雾净化塔

江苏熙天时环保科技有限责任公司专业从事酸雾净化塔,生物除臭塔,有机废气塔,污水池加盖的生产和销售,欢迎来电咨询:13961291523

卡车界

卡车界为您提供卡车相关新闻,如轻卡,中卡,皮卡的小型卡车的上市,数据,以及导购资讯;重型卡车如牵引车,物流车,货车等的驾驶体检和性能对比,是一家综合门户的卡车网站。

格子板设备

青岛同三塑料机械有限公司座落在美丽的胶州湾畔,是一家塑料挤出设备的专业制造商。公司汇集了我国非常好的的科研人才。

深圳市联森光电有限公司

深圳联森光电致力于LED电子显示屏,LED大屏幕,大型LED全彩显示屏,LED表贴单元板,室内显示模组以及LED电子广告屏生产,具有LED全彩屏研发生产经验,得到很多朋友的认诃与评价。热线电话:0755-29776529

酶解小肽蛋白粉

北京金波绿泰科技有限公司,专业生产的酶解小肽蛋白粉,广泛应用在宠物主粮、宠物奶粉、宠物零食、宠物营养膏;在皮毛动物(貂狐貉)饲料;水产虾、蟹、海参、鳖等养殖中作为氨基酸肥水素、饲料添加剂中替代鱼粉产品另一个选择;猪饲料免疫力抵抗力,降低死亡率;禽类鸡、鸽子等鸟类,可有效减少啄羽啄肛、死亡率降低,饲料报酬提高吸收率达到95%以上

阀门手动执行器

泰州市创源阀业有限公司专业从事阀门手动执行器,阀门减速箱,铸铁件厂家的生产和销售,欢迎来电咨询

柱塞式灌装机

青州贝索诺自动化设备有限公司是液体自动化包装设备及配套设施的生产厂家,主要生产销售白酒、红酒、食用油、润滑油等液体灌装成套设备,包括刷瓶机、冲瓶机、灌装机、旋盖封口机、打塞机、套帽热缩机、烘干机、输送机、封箱机、过滤机、水处理等产品。

威海市金贝壳新材料有限公司

威海市金贝壳新材料有限公司-合金陶瓷刀片-碳纤维复合材料刀片_一家专门研发生产碳纤维复合材料、合金陶瓷等刀片及刀体、夹具等相关设备的公司

微网优联

微网优联科技(成都)有限公司是一家集产品设计、研发、生产、营销、服务于一体的全球智能安全连接服务提供商,聚焦于Wi-Fi技术深度开发应用,在F5G技术领域处于行业先进水平,始终致力于为全球B端客户(运营商和品牌客户)定制领先的网络通讯产品、技术解决方案和专业优质的服务。微网优联作为全球网络通讯设备供应商,经营开拓JDM业务模式,对接上游供应商300多家,服务国内外品牌客户近百家。目前已形成Wi-Fi类、安防类、全光类、交换机类和创新类五大产品线,产品涵盖Wi-Fi6无线路由、IPTV机顶盒、无源光纤网络终端、MiFi、AP+AC、FTTR全光路由、IPC智能摄像头、交换机、电子学生卡、云电脑等;构建遍布全国的销售、物流配送和售后服务网络,海外业务布局35个国家及地区。

全局底部横幅