AI任务疑难 谷歌等揭露 整个世界 存在局限的ImageNet等基准 的博物馆 就像无法代表 (ai 问题)

文章编号:41744 资讯动态 2024-12-03 谷歌 ImageNet 智能理解 模糊任务
谷歌等揭露「AI任务疑难」:存在局限的<a href=Imagenet等基准,就像无法代表「整个世界」的博物馆" src="https://www.gpxz.com/zdmsl_image/article/20241203224212_47820.jpg" loading="lazy">
作者| 杏花

在日常生活中,我们需要一些「标准」来衡量个人的行为。

而在科研工作中,研究人员也需要一些「基准」来评估模型的性能。

因此,不管是普遍的「标准」还是特定的「基准」,它们都有一定的参考意义。

然而,如果有一天我们发现这些「参照物」与实际生活渐行渐远时,它们该往何处去?

近日,由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文 《AI and the Everything in the Whole Wide World Benchmark》 指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性,就像用有限的博物馆来代表整个世界一样。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

在这篇论文中,研究人员阐述了机器学习(ML)对通用任务框架(CTF)的过度依赖,因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是,研究团队 并不否认这些基准的实用性,而是希望指出将其作为框架存在的固有缺陷。



展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共鸣的一点就是用故事书作为引子,且将情节贯穿全文,使得论文的研究内容更为直白易懂。

这本书就是1974年出版的 Grover and the Everything In the Whole Wide World Museum》 ,书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。

该博物馆的每个展厅都陈列着不同类别的东西,有些类别是随意和主观的,比如「你在墙上看到的东西( Things You Find On a Wall )」和「房间里能让你挠痒痒的东西( The Things that Can Tickle You Room )」;有些类别则非常具体的,例如「胡萝卜屋( The Carrot Room )」,而另一些则含糊不清,如「高大的厅堂( The Tall Hall )」。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

当Grover认为自己已经参观完博物馆的一切时,他来到写着「其他东西(Everything Else)」的大门前。打开门后,却发现自己置身于外面的世界。

作为儿童故事,Grover的经历是荒诞的。然而,在实际的研究中,例如人工智能尤其是ML领域,也存在类似的固有错误逻辑,其中许多流行的基准依赖于固有的错误假设。

这篇论文的研究人员认为, 在诸如「视觉理解」或「语言理解」之类的模糊任务中,作为衡量一般能力进展的基准,与有限的博物馆在代表「整个世界的一切」方面一样无效, 且这两个谬论的原因是相似的,即本质上是基于特定的、有限的且局限于上下文的环境

GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是,通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务,甚至超出了最初的开发目标

尽管作为迈向「通用目标」的标志,这些基准存在明显的局限性。事实上,这些基准的开发、使用和采用表明了一个结构有效性的问题,其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。

论文的作者们认为测量通用能力的目标(即通用对象识别、通用语言理解或领域独立推理等目标)不能充分体现在数据定义的基准中。研究人员注意到,当前的趋势不恰当地扩展了CTF范式,以将其应用于与现实世界目标或背景不同的抽象表现任务。

从历史上看,CTF的开发正是为了引入实用导向和严格范围的人工智能任务,即自动语音识别(ASR)或机器翻译(MT),其中所需的验证是 基准是否准确地反映了计算机在现实环境中所要求的实际任务。 这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。

与其把Grover的经历当成儿童故事来看,倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时,却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论,ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

因此,这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足,那其他基准定义就是完美无缺的吗?除了ImageNet,目前在通用对象识别上还有更好的参照基准吗?该如何看待以及解决基准定义越来越「不基准」这个问题?

外行看热闹,内行看门道,这么头疼的问题就应该交给专业人士。




OpenReview官方怎么评

迎面向我们走来的是第一位评委,该评委发出了“ 反对CV和NLP的“通用”基准中令人信服的观点! (A compelling argument against "general" monolithic benchmarks in vision and NLP)”的赞叹,因为他觉得这篇论文 史料详实,观点明确,分析到位,着实令人信服。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

论文的研究人员先在文中铺垫了大量的背景知识,向读者展现了通用人工智能和基准测试的相关研究,并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后,结论就水到渠成了:通用语言理解和通用对象识别的基准本质上是有缺陷的,因为它们应用于狭窄的范围。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文, 因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献,而不仅仅是追求最先进的技术。

但美中不足的是,既然发现了ImageNet基准存在局限性,那有什么办法可以减少对这些通用标准的过度依赖?看来论文的研究人员也还没找到这个问题的答案。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

而第二位评委对这篇论文的评价是: 通用人工智能基准的谬论 (The Fallacy of Benchmarks for General Artificial Intelligence )。因为这篇论文的受众主要是AI领域的研究人员,所以作者在前文回顾了通用AI的相关基准,一下拉近了与读者的距离。此外,引用Grover的故事也使得该论文有趣易懂。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

即使这篇论文的开头存在表述问题,未能无缝衔接主题,但瑕不掩瑜,评委二号高度赞扬了 这篇论文为ML领域的研究指明了方向。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

接着,评委三号也带着他的观点款款走来: 好论文!但改一下结构就更好了 (Well argued paper, with some reorganization suggested)。这位评委指出,这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑:所以,有什么解决方案可以减少对通用标准的过度依赖?

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

不同于前三位评委的「慷慨」,第四位评委只给出了5分的评价,认为这篇论文只是: 当前基准测试的简史 (History of the benchmarks we use today)。从这个评语不难看出,这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性,但作者团队并没有采取任何立场。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

最后,评委五号不见其人,先闻其声: 很棒!但还有上升空间 (Great, but improvements needed)。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好,同时有大量的研究支撑文中的论点, 希望这篇论文能引起相关领域研究人员的重视。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

正因为对这篇论文寄予了极高的期望,因此评委只给出了6分的评价,同时罗列了非常详细的修改建议,希望论文的作者能加以改进。




Reddit网友怎么说

看完五大评审的官方评论,总结起来基本就是: 论文不错,观点新颖,论据充分,要是能提出解决方案就更好了。 此外,有三位评委都不约而同地希望这篇论文能引起相关领域的重视。

Reddit上关于这篇文章的讨论热度也不小,我们来看看神通广大的网友怎么说。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

某位网友一针见血地指出,虽然ImageNet等基准测试像「有限的博物馆」一样存在不足,但却是目前我们训练模型最有力的工具。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

确实,就像上述评委提到的,ImageNet是有局限性,但是否有更好的解决方案?因此,有热心网友为论文的作者修改了摘要: 没有任何数据集能够捕捉所有细节的全部复杂性,就像没有博物馆可以包含整个世界中所有的事物一样。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

一些网友则认为论文不错,尤其是「芝麻街」故事情节的插入加深了他们对该论文的理解。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

这些网友觉得,用「无法展示一切的博物馆」类比「ImageNet在一些模糊任务上的局限性」非常恰当。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

大概论文的作者们也没想到,写个文章还能为一本书代言,有网友调侃:宇宙万物的答案就隐藏在这本「芝麻街」故事书中。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

更多网友表示赞同论文作者的观点,毕竟相比解决问题,发现问题太容易了。(狗头)

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

所以,解决方案究竟在哪?

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

就算博物馆「无法展示一切」,也没有人能否定其价值。同理,ImageNet这类基准定义的存在意义也不容置喙。不断发现问题并解决问题,历史的车轮才会滚滚向前(狗头)。


原创文章,未经授权禁止转载。详情见 转载须知 。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆


本文地址: https://www.gpxz.com/article/eee3b7c6616b0d1e054c.html
全局中部横幅
全局中部横幅
即时工具

致力开发即用即走型在线工具,无需客户端在线一键使用。拥有视频工具、音频工具、图片工具、PDF工具、办公辅助、设计工具、文本工具、数字工具、加密工具、单位转换等等工具。同时拥有良好的用户体验,为您的工作学习提升效率!

单县正大康复医院

单县正大康复医院始建于2004年,医院占地面积12000平方米,建筑面积8000平方米,业务用房面积7800平方米,开放床位200余张,员工240余人。是一所集医疗、康复、预防保健、教学、科研、养老于一体的二级综合性医院。

广东省交通规划设计研究院集团股份有限公司

广东省交通规划设计研究院集团股份有限公司

98软件资源网

98软件资源网是一个主打优质软件、游戏的资源分享平台,每日精准为大家提供最受欢迎的软件资源,以及最新手游免费下载,最全的手机软件、手机游戏资源尽在98软件资源网!

短信群发平台

秒赛科技-专业短信群发平台服务商,通过网页短信群发和短信接口触发方式,提供短信验证码、短信营销、短信通知等服务,三网合一106短信平台,到达率高,注册免费送100+短信,欢迎试用!

山东庆华豆芽机

山东庆华豆芽机械设备有限公司专业生产豆芽机,豆苗机,芽苗机,花生芽机,绿色芽苗菜,芽苗菜技术加盟,花生芽.是青州首家豆芽机厂与豆芽机试验场的创办者,通过ISO9001:2008《质量管理体系》认证的企业。豆芽机销售电话:4006153688

led净化平板灯杀菌灯

苏州华榕净化设备有限公司(原吴江市华星灯具厂)为您提供净化灯具、净化设备、净化产品、净化彩板、及净化工程需要的所以产品及配件。竭诚为客户提供优质的产品及周到的服务!

苏州兆森办公家具

办公家具、厂家直销、办公家具项目、零售批发办公家具


全局底部横幅