研究预测大模型研究源告急 2026年高质量语言数据将耗尽 (研究预测大模型的意义)

文章编号：36822 资讯动态 2024-11-30 数据集规模大模型

数据存量的增速远低于大模型训练数据集规模的增速。

语言模型的缩放定律（Scaling law）表明，其规模大小取决于可用数据的数量，所以在过去几年，大约有一半的语言模型是通过扩大数据量来改进性能的。

当前，在参数量上的角逐似乎已进入冷静期，然而，当许多人还在讨论模型要不要继续做大的时候，模型能不能做大的问题已经出现了。

最近，一项来自 Epoch AI Rese Arch 团队的研究向我们抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。

研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

高质量的语言数据存量将在 2026 年耗尽，低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到 2040 年，模型的规模增长将放缓。

对数据端的建设该重视起来了。

数据存量是大模型数据集的规模上限

数据存量预测

数据量的多少会限制大模型训练数据集的规模大小，所以要先对数据存量的增长趋势进行预测。

在预测未来语言和图像数据存量方面，研究团队开发了概率模型来预测数据累积率。

近年来无监督学习在基础模型领域大为成功，它允许我们使用少量标注数据和大量未标注数据、针对多项任务进行微调，无监督模型也被证明能够为未标注数据生成有价值的伪标签。所以，这里主要关注未标注数据的存量和累计率。

另外，要预测数据累积率，得先确定哪些因素会导致数据的增长。绝大多数数据是用户生成的，存储于社交媒体平台、博客、论坛中。所以决定某一时期产生多少数据的因素有三个：人口数量、互联网普及率和每个互联网用户产生的平均数据量。研究团队据此开发了一个用户生成内容累积率的模型。

训练数据集规模增长预测

在数据存量的预测基础上，研究人员进一步估测了未来大模型的训练数据集规模的增长趋势。

数据集规模（dataset size）在这里被定义为训练模型所依据的独特数据点（datapoint）的数量。不同领域对数据点的定义不同，对于语言数据而言，数据点即一个词，图像数据则定义为一张图像。

如果根据数据集规模的历史变化来预测未来的趋势，那结果会是“未来会继续延续历史”，这当然不够准确，因为实际上可训练模型的数据量是有限制的，最大的限制之一就是计算可用性（compute availability）。要对已有模型增加训练数据量，当然需要更多额外的计算，而计算会受到硬件供应以及购买、租用硬件的成本的制约。

所以，预测数据集规模时要将计算可用性的限制考虑进去，为此作者团队也根据计算可用性和计算优化（compute-optimal）的数据集规模做了预测。

关于模型的规模增长，有一个重要概念是 Scaling law（缩放定律），Scaling law 可用来预测给定计算预算（以 FLOP 衡量）下的模型规模和数据集规模之间的最优平衡。具体来说，最优的数据集规模与计算预算的平方根成正比。这项工作便预测了未来每年将会达到的最优训练数据集规模。

语言数据将耗尽于 2026年

先来看 语言模型 。

语言数据的质量有好坏，互联网用户生成的语言数据质量往往低于书籍、科学论文等更专业的语言数据，在后一种数据上训练的模型性能也更好。所以，有必要区分开来，为了获得更全面的结果，作者分别对低质量语言数据和高质量语言和数据的存量进行了估测，我们来看看结果。

对低质量语言数据的当前总存量进行估测，得到存量为 6.85e13 到 7.13e16 个单词。如下图。

其中，区间上的1e14 很可能是代表对于资金雄厚的大公司如谷歌可用的语言数据存量；1e15 是对于所有科技公司可用的量；1e16 则是全球人类多年间集体产生的量。当前每年语言数据增长率在 6.41% 到 17.49% 之间。

图注：低质量语言数据存量

接着，以这里的低质量语言数据存量作为数据集的规模上限来进行预测，结果发现，语言数据集规模会先经历快速增长直到数据存量耗尽，之后增长速度会大幅放缓。数据存量耗尽的时间节点在 2030 年之后。

图注：低质量语言数据集规模增长趋势

在高质量语言数据方面，作者估测了数字化书籍、公共 GitHub 存储库和科学论文中可用文本的全部数量，并假设其占高质量数据集的 30 %-50%，从而预测出当前高质量语言数据的总存量为 9e12 [4.6e12; 1.7e13] 个单词，每年增长率为 4% 到 5%。如下图。

图注：高质量语言数据存量

这时，以高质量语言数据存量作为数据集规模上限，发现了相同的数据集规模放缓模式，但放缓会发生得更早，在 2026 年之前。

图注：高质量语言数据集规模增长趋势

再来看 视觉模型 。

对于视觉模型来说，什么样的图像数据算是高质量数据，这方面我们目前还了解不多，所以作者这里未区分高低质量。

经估测，作者发现，当今互联网上的图像总存量在 8.11e12 和 2.3e13 之间，年增长率约为 8 %。如下图。

以这一存量作为图像数据集规模的上限，根据历史趋势和计算最优来预测训练数据集规模的增长，发现与语言模型类似，图像数据集的规模会呈指数增长，直到图像数据存量耗尽，之后增长率会下降。

图注：图像数据集规模增长趋势

作者进一步计算了每种数据集规模每年会遭遇数据存量耗尽的概率，包括两种预测，一是根据历史趋势的预测，二是根据计算可用性的预测。结果如下图。

图注：低质量语言数据存量、高质量语言数据存量和视觉数据存量每年发生耗尽的概率

数据的枯竭将会在 2030 年到 2040 年之间到来；对视觉模型而言，则是 2030 年到 2060 年之间。

高质量的语言数据几乎肯定会在 2027 年之前耗尽。

大模型的数据瓶颈如何破除？

数据存量的增长速度远低于训练数据集规模的增长速度，所以如果当下的趋势继续下去，我们的而且，高质量的数据会更少。

或许更大的数据集能够替代较低质量的数据集，但即使如此，数据集规模增长的放缓是不可避免的，因为扩大数据集同时也会受到计算可用性的制约。

如果这项工作的预测是正确的，那么毫无疑问数据将成为做模型继续做大的主要制约因素，AI 的进展也会随着数据量的耗尽而放缓。

但大模型毕竟是数据驱动的。阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾告诉 AI 科技评论，数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题，大模型有多少能力，往往取决于你有什么样的数据。

举个例子，赵德丽博士在从事生成模型的研究中发现，与文生图大模型相比，做文生视频大模型要难得多，原因就在于视频数据的数量远比不上文本和图像，更不要谈数据的质量了。相应地，目前已有的文生视频模型的效果都不尽如人意。

不过，事情或许还没那么糟。

这项工作的作者承认，当前的预测结果更多是基于理想条件下的假设，即目前的数据使用和生产的趋势将保持不变，且数据效率不会有大的改进。

但是，如果未来数据效率得到提高，大模型有可能并不需要更多数据就能实现同等的性能；

如果目前看来正确的 Scaling law 被证明为错误，那也就是说在数据很少的情况下，即使数据效率没有提高，也会有其他更好的扩大模型规模的办法；

如果通过迁移学习，多模态模型被证明比单模型模型性能更好，那么也可以增加数据存量从而扩大各种数据模态存量的组合；

就数据存量本身，如果对数据进行组合使用，甚至可以无限增加数据存量；如果社会经济方面发生重大转变，也可能会产生更多新的数据种类，例如等到自动驾驶汽车大规模普及，那么道路视频的记录数据将会大大增加。

以上这些“如果”或许正是大模型的未来所在。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

版权文章，未经授权禁止转载。详情见转载须知。

大模型“研究源”告急：研究预测，2026年高质量语言数据将耗尽

本文地址： https://www.gpxz.com/article/a7d602c2b469924685a6.html

上一篇：大牛智能科学或数学奖Michael2022年顶科协J

下一篇：数字生态指数发布会即将召开会议亮点抢先看

论文投稿

万维书刊—免费投稿网、期刊大全、投稿地址大全，论文投稿发表更容易!

思想学术 2026-01-21 11:33:45

完全按照方子的时间做的

豆果美食为华人美食菜谱社区，提供各种美食、菜谱大全、食谱大全、精选的家常菜谱大全，用户通过图文形式记录生活的点滴，社区每天产生数万次的笔记曝光，内容覆盖时尚、护肤、美食、旅行、影视、读书、健身等各个生活方式领域。与千万会员一同分享的人生！

网站模板 2024-08-06 18:43:46

免费在线备课命题出卷组卷网站

免费在线出卷组卷网汇聚教育界权威专家、教育大V，持续输出最新、最实用的教育知识、教学经验，成为您的教育顾问；千万套高中、初中、小学真题试题、教学案、课件、素材等doc/docx/ppt/pptx/pdf等格式教育资源免费在线预览，让教育资源触手可得；在线组卷系统、网盘、学校OA、家长帮问答、作文、小说连载等与技术融合的教学辅助系统功能模块紧密结合，让您感受优秀的品质，使您成为我们最好的宣传大使。

小说阅读 2026-01-24 20:25:34

新街旅行摄影

新街旅行摄影是一个旅行拍摄资讯的网站,为您提供关于风景拍摄,旅行摄影,旅行相机等方面的知识

图片摄影 2026-01-25 00:53:25

沧州市冠森金属制品有限公司

沧州市冠森金属制品有限公司主营：铸铝件，铸铜件，铸铁件等系列产品，公司位于渤海之滨

电影视频 2026-01-25 18:40:32

长春遮阳棚厂家,停车棚设计,雨棚安装,天幕蓬房

吉林米莱格空间膜技术开发公司为您提供吉林遮阳棚设计,吉林停车棚安装,吉林雨棚制作,吉林天幕蓬施工,长春遮阳棚设计,长春停车棚安装,长春雨棚制作,长春天幕蓬施工服务,诚信专业，值得信赖！

编程开发 2026-01-29 11:34:37

百业招商网

良时百业招商网,提供大家免费发布平台,具有同城，快速，高效等特点,提供商业和生活等各个行业,还提供各城市天气查询服务

商业服务 2026-01-29 14:42:48

汽车维修知识网

汽车维修知识网是一个分享汽修知识，解决汽车问题，学习汽车维修技术的网站，不管是汽车新手还是汽车维修技师在这里都能学到有用的东西。

网站模板 2025-02-01 15:52:22

好神途发布网,最大新开神途手游发布网站,找神途开服表官网

新开神途发布网,致力于神途手游发布网玩家找神途官网最大最新神途开服表,方便神途玩家找复古变态合击单职业神途发布网首区下载神途万能登陆器-Www.Haost.Com

下载资源 2025-02-03 18:34:31

券兔兔

券兔兔品牌好物推荐平台，推荐优质的宝贝，购物优惠券网站，十大品牌排行榜，热门品牌大全

网站模板 2025-02-06 15:21:03

博雅新材

眉山博雅新材料有限公司成立于2016年12月，是一家集人工合成晶体材料研发，生产，加工和销售的高科技企业。

企业品牌 2025-02-24 16:55:14

万能试验机,拉力计,数显测力计,推拉力计,数显推拉力计,拉力测试仪,测试台,扭矩扳手,扭矩测试仪,省力加力扳手,定扭矩电动扳手,扭剪型电动扳手等测力仪器

上海恒刚仪器仪表有限公司是专业的万能试验机,拉力计,数显测力计,推拉力计,数显推拉力计,拉力测试仪,测试台,扭矩扳手,扭矩测试仪,省力加力扳手,定扭矩电动扳手,扭剪型电动扳手供应商，主营产品有：万能试验机,拉力计,数显测力计,推拉力计,数显推拉力计,拉力测试仪,测试台,扭矩扳手,扭矩测试仪,省力加力扳手,定扭矩电动扳手,扭剪型电动扳手等,上海恒刚仪器仪表有限公司不仅具有专业的技术水平，更有良好的售后服务和优质的解决方案,欢迎来电洽谈

商业服务 2026-01-31 17:01:09

饰品玩具加盟品牌有哪些品牌有哪些 (饰品玩具加盟品牌十大排行榜)

创业的方式有很多种，选择不同的行业挣到的钱各不相同，创业者可以根据市场的需求方向做出选择，饰品玩具行业在市场上一直以来都呈现火热发展的现状，在各大城市里加盟分店开一家火一家，每家店的销售业绩出现快速的增长，独占市场的一席之地，创业者面对如此众多的品牌，不知道如何选择，大家想要了解饰品玩具加盟品牌有哪些品牌有哪些，1、饰品，2012年品...。

2024-12-21 20:17:33

打破16项AI性能记录！英伟达A100 GPU要无人能敌 (打破ath)

雷锋网消息，2020年7月30日，MLPerf组织发布第三个版本MLPerfTrainingv0.7基准测试，Benchmark，结果，结果显示，英伟达基于今年5月最新发布的Ampere架构A100TensorCoreGPU，和HDRInfiniBand实现多个DGXA100系统互联的庞大集群——DGXSuperPOD系统在性能上开创...。

2024-12-03 21:55:25

当贝D6XPro画面怎么倒过来 (当贝d6xpro和坚果n1s对比)

发表在专业问答2024，7，711，00展示机型信息，品牌型号，当贝D6XPro系统版本，当贝OS4.2当贝D6XPro画面倒过来可以通过改变图像设置中的投影方式来调整，总共可以分为三步，下面为当贝D6XPro画面怎么倒过来的详细步骤做具体说明，当贝D6XPro画面怎么倒过来1.打开投影设置在当贝D6XPro的主界面点击设置图标打开投...。

2024-11-28 21:49:11

浙江最土豪的三个县 (浙江最土豪的县)

浙江最土豪的三个县诸暨、慈溪市、义乌，1、诸暨是中国最富裕的县级市之一，经济总量高，小城镇发展好，被称为，小商品之王，，诸暨市拥有强大的工业基础，如海亮集团、祥生地产等知名企业的发展，也有慈溪的工业和科技发展，2、慈溪市被誉为中国小家电之都，方太厨具、公牛集团等企业都是慈溪市的头牌企业，慈溪市拥有丰富的海涂资源，是中国县域经济信息化试...。

2024-11-19 13:36:51

国足抵达日本备战18强赛伊万：尽最大努力拿分|世界杯|伊万科维奇|新加坡门将

国足抵达日本备战18强赛伊万：尽最大努力拿分,国足,日本,世界杯,中国男足,18强赛,伊万科维奇,新加坡门将

2024-09-03 14:00:04

不退全款 (网上购票退票为什么不退全款)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 20:42:52

奥拓快乐王子硬件难买吗? (奥拓快乐王子最后一批是哪年)

关于奥拓快乐王子的硬件疑问，首先，须要明白，因为该车型已停产，原厂硬件的失掉或者会面临艰巨，但这并不象征着没有选用，市场上其余品牌的硬件丰盛多样，只需经过正轨路径购置，理论不会有太大疑问，关于奥拓快乐王子的魅力，新车型表现了奥拓的精品路途，以炫动和超节能为外围思念，外观设计更具静止感，同时坚持了奥拓一向的低能耗长处和初级性能，从7月1...。

2024-07-07 16:27:39

21款奥迪a6l上市多少钱多少钱 (21款奥迪a6l)

21款奥迪A6L的上市多少钱为41.78，66.68万元，这款新车共推出了21款车型，搭载2.0T高，低功率和3.0T发起机，旨在满足不同用户的共性化需求，它的外观设计充溢静止感，车顶线条拖拉，分层式腰线设计和奢侈与静止的，双脸，版本设计都展现了其共同魅力，此外，它还装备了外型共同、性能超前的高清矩阵式LED大灯和锯齿状尾灯设计，带来...。

2024-07-07 12:30:30

一张照片引热议中国专家组进入意大利重灾区病房 (一张图片引发热议)

原题目，中国专家组进入意大利重灾区病房，一张照片引热议据@央视资讯的信息，20日，中国赴意大利抗疫医疗专家组一行7人奔赴意大利疫情最重大的贝加莫市，与外地一线医护人员见面交换，走访医院感化科病房，提出疑问与意见，其中一张中国专家和意大利医护人员的合影照片引发了网友的热议↓↓就是这张照片网友评论道，看意大利医护人员的装备，心酸，都很悲壮...。

2024-07-03 16:20:24

飞驰C260开车步骤 (飞驰人生2)

无钥匙进入车内；齿轮杆放在P档，踩刹车，点击一键进行按钮；挂D档，踩油门，就可以登程了，飞驰C引见260驾驶步骤1.先说说汽车的解锁，解锁方法有两种，第一种是按钥匙解锁，第二种是无钥匙进入，但这种方法须要装置另一个感应门锁，2、对于C260点火熄火疑问，因为该车型具有无钥匙进行性能，点火熄火十分容易，只有将变速箱放在P档，踩下制动器，...。

2024-07-01 23:03:09

尬到我脚趾抓地是什么梗尬到我脚趾抓地表情包分享

尬到我脚趾抓地是网友用来形容尴尬的一种程度，那么尬到我脚趾抓地是什么意思？还不知道的小伙伴快来一起看看尬到我脚趾抓地是什么梗的相关内容吧。尬到我脚趾抓地是什么梗夸张的形容尴尬，羞耻等情绪。因为在感觉到尴尬羞耻时会脚趾蜷缩，很像在抠地，所以渐渐地用脚趾抠地形容尴尬。后来为了表达尴尬羞耻的程度高到让人疯狂抠地就诞生了这种比喻:用脚趾抠出

2023-11-15 19:03:54

北京住宅成交数据_北京房价

据北京住宅成交数据中心统计，北京住宅当日累计成交：79套、均价52392元/平方；销量前三楼盘：壹品兴创·御璟星城,国祥源境,北京城建星誉BEIJING。点击查看更多详细成交数据。

2023-09-19 01:00:25

文章推荐

成果网络广告联盟站内互动数据分析 (成果网络广告案例分析)

文字链接认证代码普通联盟标志认证代码企业广告联盟标志认证代码广告联盟评测代码说明，本页面的认证代码为成果网络广告联盟专用评测代码，站长需懂简单html知识，直接复制代码粘贴到联盟网站相应页面即可使用，本代码不适用于其他广告联盟网站请勿获取！文字认证，文字链接代码认证适用所有类型的广告联盟，复制代码后放在成果网络广告联盟网站首页底部或友...。

2024-12-05 21:28:40

网络百科

真·全面屏努比亚Z70Ultra发布更强的OV64B长焦 35mm主摄 4599元起 (真全面屏 2021)

11月21日，努比亚Z70Ultra正式发布，红魔10Pro系列同款的无打孔真·全面屏、骁龙8至尊版、等效35mm的IMX906、强化的OV64B长焦，定价4599元起，努比亚Z70Ultra是骁龙8至尊版，不锈钢VC投影面积约4400mm²级别，LDPPR5X，UFS4.0闪存，16GB和24GB版本是9600Mbps的增强版LPD...。

2024-11-30 14:27:54

手机评测

MT9669芯片是什么水平?为什么当贝F5对比极米H3S投影仪更强 (mt9669芯片)

发表在当贝投影仪2022，4，1915，12现很多家用旗舰投影机型均优先采用联发科MT9669芯片，当贝F5就是典型旗舰机型之一，那么现如今当贝F5和极米H3S同搭载的MT9669芯片是什么水平，为什么当贝F5对比极米H3S投影仪更强，今天就让我们一起来探索一下，一、MT9669芯片是什么水平，MT9669芯片是联发科研发的高性能旗舰...。

2024-11-29 00:56:42

网络百科

电脑投屏怎样设置 (电脑投屏怎样才能不看到桌面的操作)

发表在专业问答2022，4，2411，31展示机型信息，品牌型号，华硕飞行堡垒7、当贝F5系统版本，Windows10、当贝OS3.0软件版本，乐播投屏5.1.10、乐播投屏8.11.26电脑可以通过Miracast、第三方软件以及有线连接三种方式进行投屏，下面是电脑投屏的具体操作步骤，电脑投屏怎样设置有线投屏，1.连接信号线先将HD...。

2024-11-28 20:19:48

网络百科

加盟鸭脖怎么样 (加盟鸭脖怎么加盟)

鸭脖是大众耳熟能详的休闲食品，鸭脖麻辣鲜香的味道给美食人士留下深刻的印象，前往门店惠顾的人数源源不断，许多餐饮店保持着旺盛的客流量，生意做得十分红火，那么从开店角度来看加盟鸭脖怎么样，可能部分读者对此还不清楚，文章将给出清晰解答扫清创业人士心中的困惑，爱鸭鸭脖选用新鲜鸭脖与调味料进行食品加工，其出品的鸭脖肉质细嫩、回味悠长，给予消费者...。

2024-11-22 20:54:35

创业加盟

研究预测 大模型 研究源 告急 2026年高质量语言数据将耗尽 (研究预测大模型的意义)

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

相关文章

文章推荐

研究预测大模型研究源告急 2026年高质量语言数据将耗尽 (研究预测大模型的意义)