1.2毫秒! 8运行BERT 英伟达TensorRT (12毫秒是几秒)

文章编号:36835 资讯动态 2024-11-30 TensorRT 英伟达

自今年5月份TensorRT 8-EA版(Early Access,尝鲜版)发布之后,英伟达终于在本周二发布了TensorRT 8的正式版。

作为支持英伟达GPU平台的深度学习推理框架,TensorRT 8正式版与以往的版本相比,能够在在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large,即将语言查询推理时间缩短至上一个版本的一半,创下最新记录,为搜索引擎、广告推荐和聊天机器人的AI模型提供支持。

英伟达官方声称,TensorRT8不仅针对transformer作出突破性优化,还新增其他两项关键特性,实现AI推理方面的突破。

推理时间缩短至1.2毫秒,速度提升1倍

“AI模型以指数级的速度增长,很多公司不得不缩减模型大小以追求响应速度。英伟达2016年推出的TensorRT可以帮助这些企业扩大规模,提升精度。” 英伟达AI软件部的产品管理总监Kari Briski回顾TensorRT推出的背景时说道。

1.2毫秒! 英伟达 8运行-Large推理创纪录

TensorRT是英伟达自家的深度学习推理框架,在模型推理的过程中,可以将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式,再使用TensorRT推理引擎运行,从而提升这一模型在GPU上的运行速度。

因此,支持更多的模型和进一步缩短推理时间,提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年,黄仁勋在GTC China上发布TensorRT 7。相比于只支持30多种模型的TensorRT 5,TensorRT 7能够支持各种类型的RNN、Transformer和CNN,支持多达1000多种不同类型的计算变换和优化,还能让推理时间缩短至0.3秒,为此黄仁勋将其称之为“我们实现的最大飞跃”。

这次更新的TensorRT 8版本,虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级,但也有一定程度的更新。

英伟达宣称,TensorRT 8的各项优化为语言带来了创纪录的速度,能够在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large,帮助企业将模型扩大一倍或两倍,从而提高精度。

落实到具体的应用上,这种推理速度的提升能够让对话式AI更加智能,交互应用程序的性能也能够得以提升。

新增两项核心技术,是推理速度提升的关键

在此之前,之所以能够凭借TensorRT提升模型在英伟达GPU上的运行速度,主要得益于TensorRT的一系列优化,这些优化包括:

简单而言,就是在力求以低混合精度提升吞吐量的同时,减少计算和内存访问,合并网络层。

1.2毫秒! 英伟达 8运行-Large推理创纪录

而在TensorRT 8版本中,英伟达又新加入两个关键特性,以实现AI推理方面的突破。

其一是稀疏性。 TensorRT 8中使用稀疏性技术,在保证精度推理的同时,降低深度学习模型中的部分权重,减小模型所需要的带宽和内存,在提升效率的同时使开发者能够通过减少计算操作来加速神经网络。

这项技术能够帮助NVIDIA Ampere架构GPU得到性能上的提升。

其二是量化感知训练。 开发者能够使用训练好的模型,以 INT8 精度运行推理,且不会造成精度损失,大大减少计算和存储成本,在Tensor Core核心上实现高效推理。

TensorRT诞生第五年,下载次数近250万次

推理模型上的速度优势让TensorRT广受欢迎。五年来,已有来自医疗、汽车、金融和零售等各个领域的27500家企业,超过25万名开发者下载使用TensorRT,累计次数近250万次。

1.2毫秒! 英伟达 8运行-Large推理创纪录

GE医疗是TensorRT的使用者之一,他们用TensorRT助力加速早期检测疾病的关键工具——超声波计算机视觉创新,使临床医生能够通过其职能医疗解决方案提供方最高质量的护理。

GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵的时间来选择和评估超声图像。在Vivid Patient Care Elevated Release项目的研发过程中,我们希望通过在Vivid E95扫描仪上实施自动心脏视图检测,使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动。TensorRT凭借其实时推理能力,提高了视图检测算法的性能,同时缩短了我们研发项目的产品上市时间。”

开源AI技术的领导者Hugging Face也在同英伟达展开密切合作,其产品总监Jeff Boudier表示,通过TensorRT 8,Hugging Face在BERT上实现了1毫秒的推理延迟,十分期待能在今年晚些时候为客户提供这一性能。

目前,TensorRT 8已经全面上市,且面向英伟达计划开发者成员免费提供,用户能够从 TensoRT GitHub库 中获得最新版本插件、解析器和样本开放源代码。

TensorFlow Lattice:灵活、可控、可解释的机器学习

谷歌发布TensorFlow,用于测试人工智能模型的隐私保护

Google用AI设计AI芯片,不到24小时就能设计出Tensor处理单元

原创文章,未经授权禁止转载。详情见 转载须知 。

1.2毫秒! 英伟达 8运行-Large推理创纪录


本文地址: https://www.gpxz.com/article/6dc31ab598b7a9314766.html
全局中部横幅
全局中部横幅
全民格斗争霸

4399全民格斗争霸是一款横版3D格斗ARPG页游,经典动作地下城格斗争霸。在一次次战斗中经历刺激的冒险,得到道具和宝藏,成为顶尖的强者。

爱其居装修网

厦门爱其居网络科技有限公司助力中国装企行业向平台化、信息化转型。为消费者提供省钱、省心、全面现金保障...

诗词学习网

诗词学习网为您提供超过10万首诗词,拥有古诗词大全,唐诗三百首,现代诗歌大全,诗词名句等栏目,是最好的诗词学习平台!

gate.io交易平台

gate.io交易平是一款非常值得信任的安全虚拟货币交易区块链平台gate.io芝麻交易所摆地摊比特币和派(pi)币等加密数字货币的买卖、及时的价格走势和数字货币走势等实用功能。

静电监控器

深圳市研成工业技术有限公司拥有自己的软件、硬件、视觉、结构研发团队,主营产品:静电监控器、静电闸机、离子风机、地线监控器、温湿度监控器、尘埃粒子监控器、静电点检仪、智能焊台、智能电批。是一家专注于数字化工厂智能硬件与工业数据的方案提供商。

嘉豪商业管理有限公司

总部设立于北京,作为专业的商业地产运营商,专注于全价值链过程管理,旨在为委托方提供全方位资产管理服务,通过专业化、高效率的商业资产管理,不断提升商业资产价值。

重庆螺旋钢管厂

重庆金钰源物资有限公司(13667668868)现货批发:重庆螺旋钢管厂,重庆涂塑钢管,重庆防腐螺旋管,3PE防腐钢管/自来水/饮用水/污水防腐螺旋管,重庆大口径螺旋管,重庆污水厂专用钢管等。拥有先进的专业设备和雄厚的技术力量,有高级技术职称的专业技术人员若干名;集研究、设计、生产制造经营销售为一体。将秉承

镇江宏达家居用品有限公司

镇江宏达家居用品有限公司是中国优质的扎丝扎带生产厂家,成立于1998年,专业成产各种扎口线,产品远销欧美以及世界各地。本公司以诚信,专业,优质的经营理念,建立了严苛的质量管理检验体系,全心全意为客户提供高品质的专业产品及完善的售前与售后服务。电话:86-0511-54510137/86-0511-84510818

美术与设计学院

石家庄学院美术与设计学院

首页

广西农村创业创新大赛

成都网站建设

创新互联建站10多年网站建设公司,提供网站设计制作、网站推广、网站改版维护等优质服务!成都网站建设,网站设计,网站制作,网站营销推广,定制高端网站建设,建站服务:400-028-6601

全局底部横幅