研究预测 大模型 研究源 告急 2026年高质量语言数据将耗尽 (研究预测大模型的意义)

文章编号:36822 资讯动态 2024-11-30 数据集 规模 大模型
数据存量的增速远低于大模型训练数据集规模的增速。

语言模型的缩放定律(Scaling law)表明,其规模大小取决于可用数据的数量,所以在过去几年,大约有一半的语言模型是通过扩大数据量来改进性能的。

当前,在参数量上的角逐似乎已进入冷静期,然而,当许多人还在讨论模型要不要继续做大的时候,模型能不能做大的问题已经出现了。

最近,一项来自 Epoch AI Research 团队的研究向我们抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

这意味着,如果数据效率没有显著提高或有新的数据源可用,那么 到 2040 年,模型的规模增长将放缓。

对数据端的建设该重视起来了



数据存量是大模型数据集的规模上限

数据存量预测

数据量的多少会限制大模型训练数据集的规模大小,所以要先对数据存量的增长趋势进行预测。

在预测未来语言和图像数据存量方面,研究团队开发了概率模型来预测数据累积率。

近年来无监督学习在基础模型领域大为成功,它允许我们使用少量标注数据和大量未标注数据、针对多项任务进行微调,无监督模型也被证明能够为未标注数据生成有价值的伪标签。所以,这里主要关注未标注数据的存量和累计率。

另外,要预测数据累积率,得先确定哪些因素会导致数据的增长。绝大多数数据是用户生成的,存储于社交媒体平台、博客、论坛中。所以决定某一时期产生多少数据的因素有三个:人口数量、互联网普及率和每个互联网用户产生的平均数据量。研究团队据此开发了一个用户生成内容累积率的模型。

训练数据集规模增长预测

在数据存量的预测基础上,研究人员进一步估测了未来大模型的训练数据集规模的增长趋势。

数据集规模(dataset size)在这里被定义为训练模型所依据的独特数据点(datapoint)的数量。不同领域对数据点的定义不同,对于语言数据而言,数据点即一个词,图像数据则定义为一张图像。

如果根据数据集规模的历史变化来预测未来的趋势,那结果会是“未来会继续延续历史”,这当然不够准确,因为实际上 可训练模型的数据量是有限制的,最大的限制之一就是计算可用性 (compute availability)。要对已有模型增加训练数据量,当然需要更多额外的计算,而计算会受到硬件供应以及购买、租用硬件的成本的制约。

所以,预测数据集规模时要将计算可用性的限制考虑进去,为此作者团队也根据计算可用性和计算优化(compute-optimal)的数据集规模做了预测。

关于模型的规模增长,有一个重要概念是 Scaling law(缩放定律),Scaling law 可用来预测给定计算预算(以 FLOP 衡量)下的模型规模和数据集规模之间的最优平衡。具体来说,最优的数据集规模与计算预算的平方根成正比。这项工作便预测了未来每年将会达到的最优训练数据集规模。




语言数据将耗尽于 2026年

先来看 语言模型

语言数据的质量有好坏,互联网用户生成的语言数据质量往往低于书籍、科学论文等更专业的语言数据,在后一种数据上训练的模型性能也更好。所以,有必要区分开来,为了获得更全面的结果,作者分别对低质量语言数据和高质量语言和数据的存量进行了估测,我们来看看结果。

对低质量语言数据的当前总存量进行估测,得到存量为 6.85e13 到 7.13e16 个单词。如下图。

其中,区间上的1e14 很可能是代表对于资金雄厚的大公司如谷歌可用的语言数据存量;1e15 是对于所有科技公司可用的量;1e16 则是全球人类多年间集体产生的量。当前每年语言数据增长率在 6.41% 到 17.49% 之间。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽
图注:低质量语言数据存量

接着,以这里的低质量语言数据存量作为数据集的规模上限来进行预测,结果发现, 语言数据集规模会先经历快速增长直到数据存量耗尽,之后增长速度会大幅放缓。 数据存量耗尽的时间节点在 2030 年之后。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

图注:低质量语言数据集规模增长趋势

在高质量语言数据方面,作者估测了数字化书籍、公共 Github 存储库和科学论文中可用文本的全部数量,并假设其占高质量数据集的 30 %-50%,从而预测出当前高质量语言数据的总存量为 9e12 [4.6e12; 1.7e13] 个单词,每年增长率为 4% 到 5%。如下图。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

图注:高质量语言数据存量

这时,以高质量语言数据存量作为数据集规模上限,发现了相同的数据集规模放缓模式,但 放缓会发生得更早,在 2026 年之前。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

图注:高质量语言数据集规模增长趋势

再来看 视觉模型

对于视觉模型来说,什么样的图像数据算是高质量数据,这方面我们目前还了解不多,所以作者这里未区分高低质量。

经估测,作者发现,当今互联网上的图像总存量在 8.11e12 和 2.3e13 之间,年增长率约为 8 %。如下图。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

以这一存量作为图像数据集规模的上限,根据历史趋势和计算最优来预测训练数据集规模的增长,发现与语言模型类似, 图像数据集的规模会呈指数增长,直到图像数据存量耗尽,之后增长率会下降。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

图注:图像数据集规模增长趋势

作者进一步计算了每种数据集规模每年会遭遇数据存量耗尽的概率,包括两种预测,一是根据历史趋势的预测,二是根据计算可用性的预测。结果如下图。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

图注:低质量语言数据存量、高质量语言数据存量和视觉数据存量每年发生耗尽的概率

数据的枯竭将会在 2030 年到 2040 年之间到来;对视觉模型而言,则是 2030 年到 2060 年之间。

高质量的语言数据几乎肯定会在 2027 年之前耗尽。




大模型的数据瓶颈如何破除?

数据存量的增长速度远低于训练数据集规模的增长速度, 所以如果当下的趋势继续下去,我们的 而且,高质量的数据会更少。

或许更大的数据集能够替代较低质量的数据集,但即使如此,数据集规模增长的放缓是不可避免的,因为扩大数据集同时也会受到计算可用性的制约。

如果这项工作的预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI 的进展也会随着数据量的耗尽而放缓。

但大模型毕竟是数据驱动的。阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾告诉 AI 科技评论, 数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题, 大模型有多少能力,往往取决于你有什么样的数据。

举个例子,赵德丽博士在从事生成模型的研究中发现,与文生图大模型相比,做文生视频大模型要难得多,原因就在于视频数据的数量远比不上文本和图像,更不要谈数据的质量了。相应地,目前已有的文生视频模型的效果都不尽如人意。

不过,事情或许还没那么糟。

这项工作的作者承认,当前的预测结果更多是基于理想条件下的假设,即目前的数据使用和生产的趋势将保持不变,且数据效率不会有大的改进。

但是,如果未来数据效率得到提高,大模型有可能并不需要更多数据就能实现同等的性能

如果目前看来正确的 Scaling law 被证明为错误,那也就是说在数据很少的情况下,即使数据效率没有提高,也会有其他更好的扩大模型规模的办法;

如果通过迁移学习,多模态模型被证明比单模型模型性能更好,那么也可以增加数据存量从而扩大各种数据模态存量的组合;

就数据存量本身,如果对数据进行组合使用,甚至可以无限增加数据存量;如果社会经济方面发生重大转变,也可能会产生更多新的数据种类,例如等到自动驾驶汽车大规模普及,那么道路视频的记录数据将会大大增加。

以上这些“如果”或许正是大模型的未来所在。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载

版权文章,未经授权禁止转载。详情见 转载须知 。

大模型“研究源”告急:研究预测,2026年高质量语言数据将耗尽


本文地址: https://www.gpxz.com/article/a7d602c2b469924685a6.html
全局中部横幅
全局中部横幅
中文域名转码

站长工具提供中文域名在线转码功能,中文域名转码就是将中文字符串转成punycode标准编码的字符串。

蜂鸟网

蜂鸟网,专业摄影门户网站,学习摄影技巧、分享摄影图片,这里有极具个性的摄影作品,全新数码相机、镜头等摄影器材的行情评测;涉及生活摄影、旅游摄影、风光摄影等主题,是摄影爱好者展示图片作品、交流摄影技巧、分享互动的专业平台,是引领摄影行业的前沿媒体。

飞机小游戏,直升机小游戏,飞机小游戏大全,4399小游戏

4399飞机小游戏大全收录国内外飞机游戏,直升机小游戏,飞机大战小游戏,街机飞机游戏,双人飞机小游戏,双人直升机小游戏,好玩就拉朋友们一起来玩吧!

万年历

万年历网为您提供最好最全的2024年万年历查询,日历查询,老黄历查询,万年日历,黄历,老皇历,农历,黄道吉日,黄历吉日,以及生肖属相运程分析,星座运程,免费占卜,黄历择吉日,时辰吉凶宜忌等。查万年历,日历,老黄历就上万年历网。

皂化液在线分析仪

上海禾工科学仪器有限公司(www.hogon17.com)致力于皂化液在线分析仪,蚀刻液酸浓度在线分析仪,磷化液在线分析仪,氯化铝在线分析仪等科学仪器研发、生产、销售等服务业务。公司组建了跨学科产品研发团队,并聘请资深专家担任技术顾问,多次承担了国家科技部、上海市科委等科技项目开发任务。欢迎您来电洽谈。

【考而思教育】

考而思教育:英国,美国,加拿大,澳洲留学生海外课程在线辅导,作业网课定制化补习,学术论文写作指导,考试培训,Alevel课程辅导机构,为您的留学之路,保驾护航,提升GPA。

祁县快快查网络科技有限公司

主要从事互联网数据服务,大数据风险评估等服务.公司自成立以来,坚持以人为本的原则,拥有一支高素质专业化的服务团队,保证了我们为客户提供高水准的服务.公司建立了一套科学、严谨的组织架构和专业化、规范化的风险防控体系.希望我们的服务可以真实、有效的帮助到客户,期望与客户携手共进,共创美好灿烂的明天!

山西货架厂,仓储货架生产厂家

太原鼎诺是一家专业生产销售仓储货架、托盘、钢平台、自动化立体库的山西货架厂。位于。咨询热线:18736081699。我们为不同厂家提供不同的仓储方案,来满足不同仓库的需求。在仓储货架生产销售安装等方面,我们有丰富的经验。希望与您建立长久的合作。

东实李尔汽车座椅有限公司

东实李尔汽车座椅有限公司公司成立于2004年3月,主要从事汽车座椅及其零部件的研发、制造、销售和服务,是国内综合实力当先的汽车座椅供应商。

练习网

会计网-练习网是国内大型的会计远程教育网站,常年从事会计职称考试培训,管理会计师,初级会计职称,中级会计职称,注册会计师,注册税务师,注册资产评估师,高级会计师,经济师,初级会计职称,中级会计职称,注册会计师,注册税务师,高级会计师,经济师,会计考试辅导

佛山市欧德森门窗有限公司

佛山欧德森门窗主要从事铝合金门窗,断桥铝门窗,平开窗,推拉窗,阳光房,纱窗等系统门窗的设计、生产、销售。现面向全国进行招商加盟,我们欢迎您的电话咨询。


全局底部横幅