AI任务疑难谷歌等揭露整个世界存在局限的ImageNet等基准的博物馆就像无法代表 (ai 问题)

文章编号：41744 资讯动态 2024-12-03 谷歌 ImageNet 智能理解模糊任务

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

作者| 杏花

在日常生活中，我们需要一些「标准」来衡量个人的行为。

而在科研工作中，研究人员也需要一些「基准」来评估模型的性能。

因此，不管是普遍的「标准」还是特定的「基准」，它们都有一定的参考意义。

然而，如果有一天我们发现这些「参照物」与实际生活渐行渐远时，它们该往何处去？

近日，由加州大学伯克利分校、华盛顿大学和谷歌研究院合著的论文 《AI and the Everything in the Whole Wide World Benchmark》 指出ImageNet等基准定义的模糊任务在促进智能理解上的局限性，就像用有限的博物馆来代表整个世界一样。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

在这篇论文中，研究人员阐述了机器学习（ML）对通用任务框架（CTF）的过度依赖，因为这个框架不恰当地演变成我们今天所理解的这些声称评估「通用能力」的基准。值得注意的是，研究团队并不否认这些基准的实用性，而是希望指出将其作为框架存在的固有缺陷。

展示「整个世界」的博物馆 VS ImageNet

这篇论文最能引起共鸣的一点就是用故事书作为引子，且将情节贯穿全文，使得论文的研究内容更为直白易懂。

这本书就是1974年出版的 《Grover and the Everything In the Whole Wide World Museum》 ，书中的主人公Grover参观了一家声称展示「整个世界」的博物馆。

该博物馆的每个展厅都陈列着不同类别的东西，有些类别是随意和主观的，比如「你在墙上看到的东西（ Things You Find On a Wall ）」和「房间里能让你挠痒痒的东西（ The Things that Can Tickle You Room ）」；有些类别则非常具体的，例如「胡萝卜屋（ The Carrot Room ）」，而另一些则含糊不清，如「高大的厅堂（ The Tall Hall ）」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

当Grover认为自己已经参观完博物馆的一切时，他来到写着「其他东西（Everything Else）」的大门前。打开门后，却发现自己置身于外面的世界。

作为儿童故事，Grover的经历是荒诞的。然而，在实际的研究中，例如人工智能尤其是ML领域，也存在类似的固有错误逻辑，其中许多流行的基准依赖于固有的错误假设。

这篇论文的研究人员认为，在诸如「视觉理解」或「语言理解」之类的模糊任务中，作为衡量一般能力进展的基准，与有限的博物馆在代表「整个世界的一切」方面一样无效，且这两个谬论的原因是相似的，即本质上是基于特定的、有限的且局限于上下文的环境。

GLUE或ImageNet之类的基准测试常常被提议为验证任何给定模型性能的基本通用任务的定义。其结果是，通过这些基准数据集证明合理的结论往往远远超越了它们最初设计的任务，甚至超出了最初的开发目标。

尽管作为迈向「通用目标」的标志，这些基准存在明显的局限性。事实上，这些基准的开发、使用和采用表明了一个结构有效性的问题，其中涉及的基准——由于它们在特定数据、度量和实践中的实例化——不可能捕获任何具有代表性的关于它们的普遍适用性的结论。

论文的作者们认为测量通用能力的目标（即通用对象识别、通用语言理解或领域独立推理等目标）不能充分体现在数据定义的基准中。研究人员注意到，当前的趋势不恰当地扩展了CTF范式，以将其应用于与现实世界目标或背景不同的抽象表现任务。

从历史上看，CTF的开发正是为了引入实用导向和严格范围的人工智能任务，即自动语音识别（ASR）或机器翻译（MT），其中所需的验证是基准是否准确地反映了计算机在现实环境中所要求的实际任务。这一波定义不明确的「通用」目标则完全颠覆了其引入的意图。

与其把Grover的经历当成儿童故事来看，倒不如说这是一则深刻的寓言故事。当Grover打开「其他东西」的大门时，却发现自己置身于博物馆外的大千世界。故事的结尾或许已经预示了这个研究的结论，ImageNet之类的基准定义必然不能代表适应所有现实世界模糊任务的「通用目标」。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

因此，这篇论文确实有许多值得讨论和深思的地方。ImageNet存在不足，那其他基准定义就是完美无缺的吗？除了ImageNet，目前在通用对象识别上还有更好的参照基准吗？该如何看待以及解决基准定义越来越「不基准」这个问题？

外行看热闹，内行看门道，这么头疼的问题就应该交给专业人士。

OpenReview官方怎么评

迎面向我们走来的是第一位评委，该评委发出了“ 反对CV和NLP的“通用”基准中令人信服的观点！ （A compelling argument against "general" monolithic benchmarks in vision and NLP）”的赞叹，因为他觉得这篇论文史料详实，观点明确，分析到位，着实令人信服。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

论文的研究人员先在文中铺垫了大量的背景知识，向读者展现了通用人工智能和基准测试的相关研究，并分析了ML的基准测试何时开始作为评估范围狭窄的任务性能的标准化方法。最后，结论就水到渠成了：通用语言理解和通用对象识别的基准本质上是有缺陷的，因为它们应用于狭窄的范围。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

这位评委真诚地希望计算机视觉和NLP社区能认真对待这篇论文，因为他认为该论文对在这两个领域取得更有意义的进展做出了宝贵的贡献，而不仅仅是追求最先进的技术。

但美中不足的是，既然发现了ImageNet基准存在局限性，那有什么办法可以减少对这些通用标准的过度依赖？看来论文的研究人员也还没找到这个问题的答案。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

而第二位评委对这篇论文的评价是： 通用人工智能基准的谬论 （The Fallacy of Benchmarks for General Artificial Intelligence ）。因为这篇论文的受众主要是AI领域的研究人员，所以作者在前文回顾了通用AI的相关基准，一下拉近了与读者的距离。此外，引用Grover的故事也使得该论文有趣易懂。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

即使这篇论文的开头存在表述问题，未能无缝衔接主题，但瑕不掩瑜，评委二号高度赞扬了这篇论文为ML领域的研究指明了方向。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

接着，评委三号也带着他的观点款款走来： 好论文！但改一下结构就更好了 （Well argued paper, with some reorganization suggested）。这位评委指出，这篇论文最大的亮点是观点独特且论据充足。但也发出了和第一位评委相同的疑惑：所以，有什么解决方案可以减少对通用标准的过度依赖？

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

不同于前三位评委的「慷慨」，第四位评委只给出了5分的评价，认为这篇论文只是： 当前基准测试的简史 （History of the benchmarks we use today）。从这个评语不难看出，这位评委觉得这篇论文列举了很多基准测试且强调了它们的局限性，但作者团队并没有采取任何立场。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

最后，评委五号不见其人，先闻其声： 很棒！但还有上升空间 （Great, but improvements needed）。第五位评委认为这篇论文在梳理和总结相关工作的方面做得非常好，同时有大量的研究支撑文中的论点，希望这篇论文能引起相关领域研究人员的重视。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

正因为对这篇论文寄予了极高的期望，因此评委只给出了6分的评价，同时罗列了非常详细的修改建议，希望论文的作者能加以改进。

Reddit网友怎么说

看完五大评审的官方评论，总结起来基本就是：论文不错，观点新颖，论据充分，要是能提出解决方案就更好了。此外，有三位评委都不约而同地希望这篇论文能引起相关领域的重视。

Reddit上关于这篇文章的讨论热度也不小，我们来看看神通广大的网友怎么说。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

某位网友一针见血地指出，虽然ImageNet等基准测试像「有限的博物馆」一样存在不足，但却是目前我们训练模型最有力的工具。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

确实，就像上述评委提到的，ImageNet是有局限性，但是否有更好的解决方案？因此，有热心网友为论文的作者修改了摘要：没有任何数据集能够捕捉所有细节的全部复杂性，就像没有博物馆可以包含整个世界中所有的事物一样。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

一些网友则认为论文不错，尤其是「芝麻街」故事情节的插入加深了他们对该论文的理解。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

这些网友觉得，用「无法展示一切的博物馆」类比「ImageNet在一些模糊任务上的局限性」非常恰当。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

大概论文的作者们也没想到，写个文章还能为一本书代言，有网友调侃：宇宙万物的答案就隐藏在这本「芝麻街」故事书中。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

更多网友表示赞同论文作者的观点，毕竟相比解决问题，发现问题太容易了。（狗头）

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

所以，解决方案究竟在哪？

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

就算博物馆「无法展示一切」，也没有人能否定其价值。同理，ImageNet这类基准定义的存在意义也不容置喙。不断发现问题并解决问题，历史的车轮才会滚滚向前（狗头）。

原创文章，未经授权禁止转载。详情见转载须知。

谷歌等揭露「AI任务疑难」：存在局限的ImageNet等基准，就像无法代表「整个世界」的博物馆

本文地址： https://www.gpxz.com/article/eee3b7c6616b0d1e054c.html

上一篇：2024谷歌研究院获得最佳论文万人参加超CVPR

下一篇：百图生科首席AI科学家宋乐帮助制药人逃逸怪

福州闽川泉州分公司

本公司专业从事建筑工程、装饰工程、市政工程、公路工程、水利工程预决算项目工作。拥用综合素质专业团队30余人，设有两个土建部、一个安装部、一个抽筋部...

管理咨询 2026-01-25 00:10:45

管板加工

上海镍基重工有限公司是一家专业生产制造加工化工压力容器管板为主的实业型公司,现有多台高精密度加工设备和检测仪器,二十年钻孔加工实践经验!受到广大客户一致好评！

电影视频 2026-01-25 22:45:22

C型钢

天津智昊是热镀锌C型钢、Z型钢、U型钢生产厂家、太阳能光伏支架、抗震支架C型钢以及各种规格CUZ型钢尺寸均可来图定制，天津C型钢价格咨询热线：‭139-2062-6633

管理咨询 2026-01-28 15:22:29

长沙亚飞餐饮管理有限公司

管理咨询 2026-01-28 17:22:27

燧光Ximmerse

燧光Ximmerse（广东虚拟现实科技有限公司）成立于2015年，是空间计算时代数字化训练领域的引领者，致力于打造体系、专业、顶尖的数字化训练平台，助力行业形成数字化训练习惯。业务覆盖特种、文旅、教育等行业。

行业信息 2026-01-28 17:56:24

深圳市金宝华包装材料有限公司特价供应纸箱/纸盒系列

深圳市金宝华包装材料有限公司特价供应纸箱纸盒系列泡沫板保利龙系列珍珠棉片材异型系列

电影视频 2026-01-28 19:01:42

道口板,橡胶道口板,铁路橡胶道口板,沈阳华森铁路部件制造有限公司

沈阳华森铁路部件制造有限公司专业从事于道口板,橡胶道口板,铁路橡胶道口板,价格优惠,质量有保证,深受消费者的欢迎,是您最好的选择!道口板欢迎来电详询!

优惠消费 2026-01-29 16:40:29

湖南蓝略品牌设计有限公司

品牌全案;区域公用品牌策划设计;农产品/食品/餐饮/酒店/服饰品牌服务

设计美化 2026-01-23 23:09:28

鸿耀辉化工官网

四川鸿耀辉化工有限公司是一家经国家相关部门批准持“危险化学品经营许可”的企业，专注于从事特殊化学品经营贸易及服务工作。

商业服务 2026-01-24 22:24:57

NanoAI绘画官网

NanoBananaAI绘画官网,提供一键AI创作与在线修改图片服务！纳米级精度的AI绘图工具，可以更精确的修改图片和创作图片，实时图片ai编辑优化，立即免费体验纳米香蕉AI

图片摄影 2026-01-29 15:44:02

智道未来

一款人工智能广告优化投放系统,基于效果成本的智能投放系统,基于效果成本的智能投放系统,基于效果成本的智能投放系统

广告营销 2026-02-17 20:33:05

四川川盛泉管业有限公司

电影视频 2026-02-28 22:42:00

借助AirPods运动传感器读取训练苹果Siri新专利唇语 (借助ai润色的文章能查出来吗)

8月4日消息，根据苹果今年1月提交的专利，描述了Siri使用，运动数据，来读取用户唇语的技术，苹果现有的Siri主要依赖扬声器，在听到，HeySiri，、，Skip，或者，NextSong，等语音指令之后，可以执行相应的命令，而苹果在专利中概述了一种全新的监测方式，表示声音容易收到背景音等干扰，希望通过AirPods内置的陀螺仪或加速...。

2025-02-02 18:31:22

直播带货的收割套路你中招了吗 (直播带货的收入)

说到直播带货，真的感触良多，现在的直播，像极了当初风光无限的开网店，只要是个企业都在喊着要直播带货，大有，唯有直播可以定乾坤，的阵势，直播带货就像网店一样，逐渐在成为各大商家的标配，别人有，你没有，那你就落伍了，没有竞争力了，所以，无数商家往里扎，直播带货真的太火太火了，给人一种只要能进场，就能捞一桶金的错觉，真的是这样吗?直播真的这...。

2025-01-30 23:42:08

装修费用高吗喆啡酒店加盟需要什么条件 (日式装修费用高吗)

为了满足很多年轻客群的入住要求，生活的喜爱，很多酒店中装修就以豪华的装修，别致的设计，先进的硬件设备，受到了很多年轻商旅人士的青睐，市面上的酒店规格也在不断的提升，酒店偏向于奢华的装修，但是却受到很多年轻人的光顾，市场前景一片大好，喆啡酒店就是一个商旅酒店品牌，市场认可度高，入住一线大城市中，很多创业者想要了解，喆啡酒店加盟需要什么条...。

2024-12-21 14:42:41

联想LK201投影仪怎么样一文看懂联想LK201参数配置 (联想lk202)

发表在联想投影仪2024，8，1309，43联想LK201是一款造型类似扫地机器人的投影仪，具体联想LK201投影仪的参数配置如何呢，下面就来详细了解一下，看看联想LK201投影仪怎么样，各方面有什么优缺点，实际是否可以满足用户的家用观影需求，联想LK201投影仪怎么样，1.光学参数在亮度方面，联想LK201的光源亮度达到1000流明...。

2024-11-29 00:47:05

现在开干洗店怎么样开店需要多少钱资金 (现在开干洗店怎么样前景如何)

不为别人打工，自己开店当老板是许多年轻人的志向，也是智慧之选创业的动力之一，但是囿于经济条件以及经验匮乏，能选择的智慧之选项目有限，综合来看，开一家干洗店的难度系数比较合适，今日我们就来了解，现在开干洗店怎么样，开店需要多少资金的问题，现在开干洗店怎么样，游览过欧洲发达的消费者应该有所发现，国外的干洗服务行业非常发达，大家对于将贵重衣...。

2024-11-22 23:52:51

2007幸福感大考查 (2007幸福之翼北京演唱会吴克群)

相关链接，视频，婚姻围城内外哪里更幸福视频，老板比员工更幸福吗视频，男人更累还是女人更累视频，钱能让人变得更自在吗视频，钱是幸福的必要条件吗大在校生7年守业两次遭学校开革华声在线副总裁孙虹钢自曝最早注册百草减肥茶，女强者，路彬彬PK牛群，女人比男人更累牛群做客，大家认识，谈蒙城五年称感到幸福杨二车娜姆谈婚姻幸福，我不须要依托刘彦斌，责...。

2024-07-03 23:58:51

福州58同城网的二手手机市场可信吗 (福州58同城二手房)

除非你是手机专家，不然还是算了吧，58同城上的存款是真的吗，自己急需用钱想去存款，看到58福建福州有存款不知道是不是真的，网络反坑骗联盟团队，特意提示，请警觉网络上颁布的各种虚伪存款消息的骗局！凡是以任何理由要求先支付费用的，都是相对的坑骗！网上颁布的一切只凭身份证就可以存款或许操持信用卡的消息大局部都是低级骗局，无论公司能否注册备案...。

2024-07-03 00:41:31

腾讯qq装置步骤 (qq装扮官方网站)

腾讯QQ装置步骤如下，拓展常识，QQ，是腾讯QQ的简称，是腾讯公司推出的一款基于互联网的即时通讯软件，QQ笼罩了Windows、macOS、iPadOS、Android、iOS、WindowsPhone、Linux等多种操作平台，其标记是一只戴着白色围巾的小企鹅，腾讯QQ允许在线聊天、视频通话、点对点断点续传文件、共享文件、网络硬盘、...。

2024-07-01 14:46:52

格志GZP810驱动下载-格志GZP810打印机驱动v7.0.1.0官方最新版

格志GZP810打印机驱动是款针对格志旗下的GZP810型号打印机打造的驱动程序。它是打印机与电脑之间的桥梁，可以解决打印机出现的无法识别等问题

2023-11-07 12:21:49

ppt背景配什么好，通用ppt背景-ppt制作

哪些轻音乐适合做ppt的背景音乐《kisstherain》《天空之城》《ChildhoodMemory》《寻找卡农，蜗居钢琴插曲》《VariousArtists-ForrestGumpSuite》《神秘园-ThePr

2023-11-07 22:27:55

唤醒，唤醒如何，什么唤醒，哪些唤醒，怎么唤醒

2023-11-03 07:17:38

最新升级版云挖矿模式DaoU源码秒u源码-全开源版

最新升级版云挖矿模式DaoU源码秒u源码-全开源版源码资源仅供学习研究美工使用，请勿用于商业和非法用途!源码说明更新升级版云挖矿DaoU秒u源码和之前版本差不多升级版本的修复其他钱包打不开等bug仅支持学习交...

2023-09-17 16:21:13

文章推荐

最流行的经营类农场游戏有哪些人气较高的农场游戏盘点2024 (最流行的经营理念)

大家可以在这些游戏里面化身为一名农场主，然后尽可能的去打造一个更加个性化的农场，最流行的经营类农场游戏有哪些，为了能够经营好自己的农场，玩家需要先去种植，让自己的农场价值提升，而且需要去开垦出更多的土地，这样能够种植更加高级的种子，而且农作物成熟之后，玩家需要在第一时间将农作物收割，可以将农作物销售或者是制作更加高级的成品，农场经营类...。

2025-02-11 23:46:35

资讯动态

隐藏网址的百度搜索你还用吗 (隐藏网址的百度网站)

百度昨晚对搜索引擎进行了一些微调，资讯的搜索结果中不再包含网页地址，而是采用媒体的名称代替，在百度搜索，科技创新，关键词发现，最新相关信息全是百家号，显示的名称则是该账户的名称，已经完全分不清是外部站点内容还是存放在百度本身的内容了，，，搜索引擎百度已死，作者方可成发布微博对此表示，判断互联网上的信息真伪和质量，最可靠的依据就是网址...。

2025-01-30 21:13:41

网络百科

P40 仍有美系芯片独立之路任重道远华为 (华为p40有美版吗)

华为独立之路任重道远，据FinancialTimes报道，华为P40被拆解后发现使用了美国制造的组件，其射频前端模块主要来自三家美国芯片公司——高通、Skyworks和Qorvo，P40拆解报告报道指出，此次拆解主要由一家名为，XYZone，的国内公司完成，作为对比，该公司还对2019年发布的华为P30进行了拆解，值得说明的是，手机制...。

2024-12-09 18:19:02

资讯动态

阿里云全年营收超600亿同比增长50% (阿里云全年营收)

5月13日晚间消息，阿里巴巴发布2021财年业绩，阿里云全年营收601.2亿元，比上一财年400亿收入大幅增长50%，财报表示，收入增长主要得益于互联网、公共部门及金融行业增长推动，预计未来收入结构将进一步多样化，对比历史数据，2015财年阿里巴巴首次披露云计算营收，当年阿里云全年收入为12.71亿元，到2021财年营收601.2亿元...。

2024-12-09 17:49:52

资讯动态

北京有资源北京有希望北京有责任打造世界AI研究的中心黄铁军 (北京资源集团简介)

雷锋网AI科技评论按，2018年11月初，在北京市政府的支持下，北京智源研究院正式成立，并发布北京智源行动计划，从成立至今，近一年的时间里，在研究院首任理事长张宏江以及研究院首任院长黄铁军等人的推动下，北京智源人工智能研究院已然逐渐成型，在2019年10月31日至11月1日期间，智源研究院成功举办了首届，智源大会，，并定位为，内行人的...。

2024-12-09 17:44:20

资讯动态

AI任务疑难 谷歌等揭露 整个世界 存在局限的ImageNet等基准 的博物馆 就像无法代表 (ai 问题)

相关文章

文章推荐

AI任务疑难谷歌等揭露整个世界存在局限的ImageNet等基准的博物馆就像无法代表 (ai 问题)