SparseGPT 来了首个千亿模型压缩算法降低算力成本的同时保持高精度 (sparsely 翻译)

文章编号：36797 资讯动态 2024-11-30 3 GPT SparseGPT 千亿模型压缩算法

自 2020 年 GPT-3 横空出世以来，ChatGPT 的爆火再一次将 GPT 家族的生成式大型语言模型带到聚光灯下，它们在各种任务中都已显示出了强大的性能。

但模型的庞大规模也带来了计算成本的上升和部署难度的增加。

比如，GPT‑175B 模型总计至少占 320GB 半精度 (FP16) 格式的存储空间，在推理时，起码需要五个 80 GB 存储空间的 A100 GPU。

模型压缩（model compression）是当前使用较多的一种降低大模型计算成本的方法，但迄今为止，几乎所有现有的 GPT 压缩方法都专注于量化（quantization），即降低单个权重的数值表示的精度。

另一种模型压缩方法是，即删除网络元素，包括从单个权重（非结构化剪枝）到更高粒度的组件如权重矩阵的整行/列（结构化剪枝）。这种方法在视觉和较小规模的语言模型中很有效，但会导致精度损失，从而需要对模型进行大量再训练来恢复精度，所以遇到 GPT 这样大规模的模型时，成本就又变得过于昂贵了。虽然也有一些单次剪枝方法，无需重新训练即可压缩模型，但它们计算量太大，难以应用于具有数十亿参数的模型。

那么针对 GPT-3 这种规模的大模型，有没有一种方法能够对其作精确的剪枝、同时保持最小的精度损失且降低计算成本？

近日，来自奥地利科学技术研究所 (ISTA) 的两名研究人员 Elias Frantar 和 Dan Alistarh 合作了一项研究，首次针对 100 至 1000 亿参数的模型规模，提出了精确的单次剪枝方法 SparseGPT。

将 GPT 系列模型单次剪枝到 50% 的稀疏性，而无需任何重新训练。目前最大的公开可用的 GPT-175B 模型，只需要使用单个 GPU 在几个小时内就能实现这种剪枝。

能将精度损失降到最小。比如在目前最大的开源模型 OPT‑175B 和 BLOOM‑176B 上执行SparseGPT 时，可以达到 60% 的稀疏度，同时将精度损失降到最小。

SparseGPT 算法

超大模型的研究近几年非常活跃，但到目前为止，还没有一个百亿参数以上的模型能够实现非常准确的高度稀疏化。

现有方法对计算成本的要求都过高，以目前最准确的训练后方法 OBC 为例，对于十亿参数模型，它需要 1 个小时以上的时间来进行压缩。已知最快的训练后方法 AdaPrune 也需要几分钟来对十亿参数模型进行剪枝，按此速度，GPT-3 规模的模型估计需要数百小时（几周）的计算。

大多数现有的剪枝方法如渐进幅度剪枝（gradual magnitude pruning），需要在剪枝步骤后进行大量的再训练以恢复准确性，而 GPT 规模的模型通常需要大量的用于训练或微调的计算量和参数调整量，这使得基于再训练的方法难以应用。因此，在 GPT 规模上应用这种渐进的剪枝方法是行不通的。

ISTA 团队的这项工作提出了 SparseGPT 方法，可以实现几个小时内在单个 GPU 上运行千亿以上参数的模型，并且足够准确，可将模型修剪到 50%-60% 的稀疏度水平，而不会大幅度降低性能。

大规模近似稀疏回归算法，它可以推广到半结构化（2:4 和 4:8）模式，并且与现有的权重量化方法兼容。

图注：SparseGPT 重建算法的可视化。给定一个固定的剪枝掩码 M，使用 Hessian 逆序列(HUj )并更新这些行中位于列“右侧”的剩余权重，逐步修剪权重矩阵 W 的每一列中的权重处理。具体来说，修剪后权重（深蓝⾊）“右侧”的权重将被更新以补偿修剪错误，而未修剪的权重不会生成更新（浅蓝⾊）。

SparseGPT 是针对 GPT 规模模型的后训练（post-training）方法，因为它不执行任何微调。

目前有许多量化 GPT 规模模型的后训练的方法，如 ZeroQuant、LLM.int8() 和 nuQmm 等，但由于异常特征的存在，激活量化可能会很困难。GPTQ 利用近似二阶信息将权重精确量化到 2‑4 位，适用于最大的模型，而且当它与高效的 GPU 内核相结合时，可以带来2‑5 倍的推理加速。

但由于 GPTQ 侧重于稀疏化而不是量化，因此

另外，除了非结构化修剪，SparseGPT 也适用于半结构化的模式，比如流行的 n：m 稀疏格式，在 Ampere NVIDIA GPU 上可以 2：4 的比例实现加速。

SparseGPT ：

高稀疏化水平，低精度损失

对 SparseGPT 压缩模型的效果进行评估后，研究人员发现，大型语言模型进行稀疏化的难度与模型大小成比例，与已有的幅度剪枝（Magnitude Pruning）方法相比，使用 SparseGPT 能够实现更高的模型稀疏化程度，同时保持最低限度的精度损失。

研究人员在 PyTorch 上中实现了 SparseGPT，并使用 HuggingFace 的 Transformers 库来处理模型和数据集，并且都在具有 80GB 内存的单个 NVIDIA A100 GPU 上进行。在这样的实验条件下，SparseGPT 可以在大约 4 小时内对 1750 亿参数的模型实现完全稀疏化。

研究人员按顺序依次稀疏 Transformer 层，这显著降低了内存需求，并且还大大提高了并行处理所有层的准确性。所有的压缩实验都是一次性进行，没有任何微调。

评估对象主要是 OPT 系列模型，包含从 1.25 亿到 1750 亿参数的一套模型，方便观察剪枝相对于模型大小的缩放表现。此外还分析了 BLOOM 的 1760 亿参数变体。

在数据集和评估指标方面，实验采用了原始 WikiText2 测试集的困惑度来评估 SparseGPT 压缩方法的准确性，同时为了增加可解释性，还使用了一些 ZeroShot 精度指标。另外，评估的重点在于稀疏模型相对于密集模型基线的准确性，而非绝对数字。

研究人员对 OPT 整个模型系列的所有线性层进行剪枝（不包括标准的嵌入和头部），分别达到 50% 的非结构化稀疏度、全 4：8 或全 2：4 的半结构化稀疏度，结果如下图。

图注：OPT 模型家族在原始 WikiText2 测试集的困惑度

可见，使用幅度剪枝来压缩的模型准确性在所有尺寸上都很糟糕，而且模型越大，准确度下降得越厉害。

而使用 SparseGPT 来压缩的模型趋势不同，在 27 亿参数下，困惑度损失 < 1 point，在 660 亿参数下则是零损失。而且，与密集模型的基线相比，在模型规模非常大的情况下精度甚至还有所提高。

较大的模型更容易稀疏化

较大的模型更容易稀疏化，在固定的稀疏度水平下，稀疏模型相对于密集模型的相对精度下降会随着模型大小的增加而缩小。作者推测这可能是由于它们的参数化程度更高，总体上抗噪能力也更强。

相比于密集模型基线，在最大规模下，使用 SparseGPT 将模型压缩至 4:8 和 2:4 稀疏度时，困惑度增长分别仅为 0.11 和 0.39。这样的结果意味着，我们可以在实践中实现 2 倍的加速，商用的 NVIDIA Ampere GPU 对 2:4 的稀疏度已经有了支持。

作者研究了 OPT-175B 和 BLOOM-176B 两个千亿模型的性能与使用 SparseGPT 带来的稀疏程度之间的关系，结果下图所示。

图注：左图为分别使用 SparseGPT 和幅度剪枝将 OPT-175B 统一压缩至不同稀疏水平。右图为使用 SparseGPT 将整个 OPT 模型系列压缩至不同的稀疏水平。

可以看到，对于 OPT-175B 模型，幅度剪枝最多可以实现 10% 的稀疏度，紧接着就会有较大的精度损失。而 SparseGPT 在困惑度增加的下还能实现 60% 的稀疏度。

图注：左图为分别使用 SparseGPT 和幅度剪枝将 BLOOM-176B 统一压缩至不同稀疏水平。右图为在 OPT 家族模型上 50% 稀疏度 + 4 bit 量化联合压缩与 3-bit 的对比。

对于 BLOOM-176B 模型，尽管幅度剪枝可以达到 30% 的稀疏度而没有显著的精度损失，但相比之下，SparseGPT 可以实现 50% 的稀疏度，即 1.66 倍的提升。而且，在 80% 的稀疏度下，使用 SparseGPT 压缩的模型的困惑度仍然保持在合理水平，但幅度剪枝在达到 OPT 的 40% 稀疏度和 BLOOM 的 60% 稀疏度时，困惑度就已经 > 100。

另外，SparseGPT 能够从这些模型中移除大约 1000 亿个权重，对模型准确性的影响有限。

最后总结一下，该研究首次表明，基于 Transformer 的大规模预训练模型可以通过一次性权重修剪压缩到高稀疏性，无需任何再训练，精度损失也很低。

值得注意的是，SparseGPT 的方法是局部的：在每个修剪步骤之后，它都会执行权重更新，旨在保留每一层的输入输出关系，这些更新是在没有任何全局梯度信息的情况下计算的。因此，大规模 GPT 模型的高度参数化似乎使这种方法能够直接识别密集预训练模型“近邻”中的稀疏精确模型。

另外，由于实验所采用的的准确度指标（困惑度）非常敏感，因此生成的稀疏模型输出似乎与密集模型的输出密切相关。

这项研究在缓解大模型的算力限制方面具有很大的积极意义，将来的一个工作方向是研究大模型的微调机制来进一步恢复精度，同时，扩大 SparseGPT 的方法在模型训练期间的适用性，将会减少训练大模型的计算成本。

首个千亿模型压缩算法 SparseGPT 来了，降低算力成本的同时保持高精度

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

版权文章，未经授权禁止转载。详情见转载须知。

首个千亿模型压缩算法 SparseGPT 来了，降低算力成本的同时保持高精度

本文地址： https://www.gpxz.com/article/7cda8ac9a4d2d5aa4c84.html

上一篇：与谷歌对决微软的比赛正式开始Bard今晚Chat

下一篇：AI科学家能去哪里离开国内互联网大厂后科学

才富二手房网

提供最新上市的高性价比房源，和预测市场走向，让您了解当前的二手房信息。

新闻资讯 2026-01-24 21:18:15

企业供求信息B2B平台

领先的企业供求信息B2B平台，免费信息发布平台

企业品牌 2026-01-24 23:47:20

义乌市舞渐贸易商行

义乌舞渐

贸易批发 2026-01-25 00:37:42

重庆皮肤病医院

重庆专业皮肤科医院在哪里?重庆迪邦皮肤病医院是重庆白癜风/牛皮癣皮肤病治疗最好专科医院，集临床、诊疗、预防为一体的皮肤病专科医院.致力于治疗白癜风、银屑病等各类皮肤病疾病。咨询热线：400-698-8568

管理咨询 2026-01-25 19:48:42

网商联

网商联是香港惠客实业有限公司自2012年底启动，斥巨资打造，倾力推出的一款全新的网络销售平台。伴随着网商联的问世，一种崭新的三位一体化网销模式逐渐暂露头脚，并随着这种新思潮的引领，惠客人秉持着“智慧、博大、引领未来”的经营理念，立志将网商联建设成为“全国乃至全球最大的化妆品销售王国”，向着“中国第一，世界第一”的目标不断迈进。,喷雾,面膜,奇丝颜,碧丝兰卡,水美姿

网络应用 2026-01-28 21:51:58

享孙悟空

蜜果缘享孙悟空享悟空伊维特生产厂家拥有自主研发中心，致力打造全国优质的自动售货机生产基地，为全球提供高品质、全系列自动售货机、无人售货机、无人超市等智能产品，国内钣金生产线，全自动环保型喷涂流水线，总装流水线以及各类精密数控检测设备，并针对不同的客户需求提供合适的细分产品和专业的自助零售解决方案，确保产品细节的优越，使产品集成度高，性能优越，稳定可靠，维护便捷等特点；全自动检测系统，无需人工服务，多次选货一次付款等多功能设备。联系电话400-800-7677

商业服务 2026-01-29 11:46:53

湖北赛格尔市政工程有限公司

湖北赛格尔市政工程有限公司是建设部批准的房屋建筑施工总承包、市政工程施工总承包二级和建筑装饰装修工程专业承包二级资质企业。成立于2008年，具有土建施工、市政工程、设备安装、房地产开发、装饰装潢、钢结构等一系列综合生产能力的经营体系。

编程开发 2026-01-29 12:55:56

杂粮面粉山珍拾贰农韵

【自有工厂】阿胶糕、阿胶块、阿胶枣、阿胶姜茶、阿胶大礼包【坚果礼盒】三只松鼠良品铺子百草味沃隆甘源三胖蛋臻味鲜品屋好想你洽洽法蒂欧如水稻香村来伊份谛品居京垦鲜物道中粮山萃美蒂斯集味轩【糖果糕点】稻香村、徐福记好丽友华美德芙歌帝梵百事春光广州酒家嘉士利熟食:东来顺紫光园双汇紫燕天福号13326258976

电影视频 2026-01-29 15:15:58

允复纳米

上海允复纳米科技有限公司

科技创新 2025-01-16 00:02:49

中国经济时报

中国经济时报是一个综合性的网站平台，主要栏目有国内、财经、商业、生活、文化、科技、体育等涉及个行业信息资讯。

新闻资讯 2025-02-04 15:02:01

重庆市鹏骐钢模制造有限公司,www.cqpengqi.com,重庆市鹏骐T梁,重庆市鹏骐盖梁模,重庆市鹏骐钢护筒,重庆市鹏骐钢箱梁,重庆市鹏骐拱架模板,

重庆市鹏骐钢模制造有限公司是西南地区最大的钢模板生产厂家之一。是一家集公路、铁路、桥梁、隧道，水电、火电站，轻轨、地铁、高铁以及建筑施工领域钢模板、钢构的研发，设计，制造，销售，租赁服务为一体的专业性生产制造企业。主要承接各类公路、桥隧模板、水电、火电、码头模板，台车，挂篮，钢箱梁，轻轨、地铁、高铁、钢结构等产品的加工制造与租赁业务。

设计美化 2026-01-23 23:36:29

优宅平台

《雪鹰领主》手游，我吃西红柿正版授权，《雪鹰领主》手游正式公布，即刻预约！

游戏网游 2026-02-04 22:59:23

高人气的野外求生手游推荐野外生存游戏中文版有哪些2023 (高人气的野外游戏)

有喜欢野外求生游戏的玩家们，可以在荒野世界中进行一场求生挑战，考验玩家的生存能力，绝对能够给大家带来身临其境的体验感，小编会给玩家们推送野外生存游戏中文版有哪些2023的相关手游，具备着超强的生存能力，在野外进行自由探索，、，迷失蔚蓝，迷失蔚蓝，游戏的画风是属于超精美的风格，你将会流落荒岛之中，成为一名幸存者，展开一场惊心动魄的冒险...。

2025-02-11 21:02:10

特色养生馆加盟 (特色养生馆加盟排行榜)

养生馆是为人们提供经络养生、健康保养、香熏SPA、美容美体、经道养生、按摩养生，驭经之术，中医防护养生，减压放松等服务项目的休闲养生场所，现代社会发病率的逐年攀生，亚健康人群的大幅增加，全社会及卫生支出越来越大，呼唤着健康产业的全面发展，全民养生健康热潮运动的流行，...。

2025-01-31 22:02:40

酒窝港式甜品加盟全年无淡季 (酒窝港式甜品店地址)

酒窝港式甜品是一家来自于香港的甜品品牌，是甜品行业的一把好手，一直坚持传统的制作工艺，只为为消费者提供更加甜美的口味，对于现在的创业者来说，比较合适的加盟行业自然就是甜品行业了，现在大家对于甜品的需求量在逐年的走高，现在加盟到甜品业正是不错的好时机，甜品行业的名气品牌——酒窝港式甜品就是一个不错的品牌，酒窝港式甜品加盟全年无淡季哦！想...。

2025-01-15 22:08:20

细分场景众多......工业AI发展得如何群雄盘踞 (细分场景众多的原因)

当前，以智能化为核心的产业变革正在兴起，人工智能技术与社会各领域的融合不断加剧，并成为助推工业智能化转型升级的关键燃料，今年4月，工业互联网产业联盟，AII，发布的，工业智能白皮书，显示，截止到2019年底，在全球20多个经济体近三年发布的100份人工智能方面的战略规划或政策文件中，涉及与工业结合的超过一半以上，美、日、德、欧盟分别发...。

2024-12-01 00:21:33

全球治理格局取决于什么 (全球治理格局发生了哪些变化)

国际力量对比，全球治理格局取决于国际力量对比，全球治理体系变革源于国际力量对比变化，要不断增强我们在国际上说话办事的实力，关于全球治理体系改革，全会强调什么全会强调中国要积极参与并引领全球治理体系改革和建设，在全球治理体系改革方面，全会明确指出中国不应仅仅是被动参与者，而是要发挥更加主动和引领性的作用，这一立场体现了中国作为负责任大国...。

2024-11-19 13:15:51

能赚3000 如何把项目放大卢松松一条视频300

这是卢松松会员专区，一位朋友的咨询，是一位草根创业者，他咨询的问题是如何组建团队，如何放大项目，如果你的事业也刚刚起步，一定一定要阅读本文，强烈强烈建议收藏，关注，松松回答，首先，这哥们他已经意识到自己没有时间思考了，我之前说过，没事要多思考，穷人更应该多思考，，虽然很多人嘲笑我，但总有人会认可的，这哥们就是，关键词提取，抖音项目、...。

2024-11-15 23:55:42

现已移至烈士陵园系亲属移动菏泽东明烈士墓碑被绑在电线杆上 (烈士载入史册吗)

村民发现烈士墓碑被绑电线杆上，没有获取注重新京报讯11月3日晚，菏泽东明县长兴集乡人民政府在其官微颁布对于王汪妮烈士墓碑状况说明，11月3日下午，针对网传烈士墓碑一事，经考查核实，该墓碑为王汪妮烈士碑，2012年依据无关规则和亲属志愿，由政府出资在其亲属责任田内修碑，协定由其亲属日常管护，往年秋耕时，其亲属将墓碑暂时移动到地头电线杆旁...。

2024-11-13 04:51:39

快用苹果手机助手怎样设置铃声 (快用苹果助手官网)

快用苹果手机助手怎样设置铃声呢?下文小编就和大家分享无关快用苹果手机助手设置铃声的图文教程，很多好友都感觉经常使用iTunes设置铃声太过复杂，那么，就可以用快用苹果手机助手啦，很繁难哦~快用苹果手机助手设置铃声教程，1.将iPhone衔接快用苹果助手，左上角第三个板块，xxx的iphone，点击进入页面，2.进入页面后，左边一排的板...。

2024-07-08 21:22:55

北汽幻速h2e油耗怎样样 (北汽幻速h2e配置参数)

作为一款时兴跨界SUV，北汽幻速H2E在外观上设计陈腐，内饰粗劣，搭载1.5T发起机，婚配7速双离合变速器，动力微弱，油耗综合体现不俗，为生产者带来不一样的体验，1.动力方面北汽幻速H2E搭载1.5T发起机，最大功率144kW，最大扭矩275N·m，搭配7速双离合变速箱，0，100公里减速只要9.7s，反响灵便，且十分耐用，同时可以给...。

2024-07-07 19:14:33

正循环回转钻机与反循环回转折的区别是什么 (正循环回转钻机与反循环回转钻机的优缺点)

正循环是冲洗液由泥浆泵经过钻杆送入孔底，再从孔底从孔内上返到低空；反循环的冲洗液刚好与正循环的路由同样，普通施工中都是用反循环的[正循环旋转钻孔]，泥浆由泥浆泵以高压从泥浆池输进钻杆内腔，经钻头的出浆口射出，底部的钻头在旋转时将土层搅松成为钻渣，被泥浆悬浮，随泥浆回升而溢出，经过沉浆池积淀污染，泥浆再循环经常使用，井孔壁靠水头和泥浆包...。

2024-07-06 19:20:41

庆铃五十铃T17皮卡雷同很 LC79平替之选念旧 (庆铃五十铃T30探险家)

在丰田越野迷里，LC79，兰德酷路泽，是一台被奉为神作的越野皮卡，该车保管了兰德酷路泽初期皮卡的设计，方方正正的车身，微卡一样的栏板，超高的离地间隙配合全地形轮胎；这种原始的机械感确实挺有吸引力，而且LC79的柴油版本不只设计感很念旧，就连发起机的技术水平也是十分的念旧，其搭载的4.5T，V8的柴油机只管排量超大且缸数很多，然而只要1...。

2024-07-02 16:16:38

RoboTask汉化版-RoboTask(虚拟封装软件)v9.7.0.1128破解版

RoboTask是一款非常强大的虚拟封装软件，您可以轻松创建简单的任务和高度复杂的自动化，包括条件语句、循环、自定义变量和其他高级选项。

2023-11-09 16:06:32

文章推荐

居然没感受到百度发明授权专利最多 360 腾讯 (居然没感受到我的爱)

日前，icoPat创新指数研究中心联合IPRdaily中文网发布，中国互联网100强企业发明专利排行榜，根据全球公开公告的发明授权专利数量，腾讯、奇虎360、百度位列前三，其中腾讯和奇虎360公司获得授权的发明专利之和，比其余98家企业发明授权专利的总和还多，这份，中国互联网100强企业发明专利排行榜，，数据范围为截至2018年4月...。

2025-01-30 19:38:53

网络百科

一团火便利店加盟费 (一团火便利店加盟费多少)

想要加入到便利店这个行业，自然是应该要选择一个对的品牌才可以，这样才能够吸引到更多的客流量，但是对于便利店在进行挑选的时候，也应该要注意项目，一团火便利店作为整个行业中比较受欢迎的品牌，不管是从服务还是从产品质量以及种类来说，都是别的品牌所无法比拟的，在市场上深受喜欢，有加盟该品牌的想法就应该要知道一团火便利店加盟费的问题，一团火便利...。

2025-01-15 22:13:41

创业加盟

金山办公的新故事是什么第35年 (金山办公的新老板是谁)

作者丨何思思编辑丨林觉民周一晚上在珠海总部见到金山办公CEO章庆元的时候，他上身穿西装，下身穿牛仔裤，满脸笑意，显得相当放松，章庆元坐在桌子边，回忆起他毕业加入金山办公的时候，金山办公内部曾经有过一个口号——，让我们的软件装在每台电脑上，，后来这个口号变成了，让我们的软件装在每台设备上，现在这个目标，几乎已经实现了，在章庆元开...。

2024-12-03 19:56:57

资讯动态

苏宁怎么就出现大劫了 (苏宁怎么啦)

6月16日盘后，苏宁易购发布了重大事项停牌公告，称收到公司实控人、控股股东张近东及苏宁电器集团的通知，筹划设计公司股份转让的重大事项，当日起开始停牌，时间不超过5日，此前的6月15日，苏宁易购还发布了一个公告称，张近东所持有的公司股份中27.68%已被司法冻结，占公司总股本的5.8%，最近几天有关苏宁的新闻不止于资本市场，有苏宁员工爆...。

2024-12-03 15:50:05

资讯动态

你觉得4K投影仪有必要吗 Pro实测对比 Pro2和当贝X3 极米RS (4k投屏是什么意思)

发表在极米投影仪2022，5，2717，29每年在临近六月时，都会掀起一波智能投影购机浪潮，也在这段时间内，很多智能投影厂商即使挤牙膏也会发布一些新品，所以我在这两月里体验到的新品也比较多，而今天要对比的是极米RSPro2和当贝X3Pro两款4K投影仪，提及4K投影仪，像我这样的穷人来说，想到的第一个字肯定是贵，再加上一句没必要，但是...。

2024-11-28 20:17:09

网络百科

SparseGPT 来了 首个千亿模型压缩算法 降低算力成本的同时保持高精度 (sparsely 翻译)

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

相关文章

文章推荐

SparseGPT 来了首个千亿模型压缩算法降低算力成本的同时保持高精度 (sparsely 翻译)