MIT×UMich探索可以理解物体空间关系的人工智能向人类再进一步

文章编号：41373 资讯动态 2024-12-03 物体空间关系机器学习模型 MIT×UMich

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

研究人员开发的框架可以根据物体空间关系的文本描述生成场景图像。

人类在描述场景时，经常描述物体之间的空间关系。生物视觉识别涉及自上而下通路和自下而上通路的交互，而深度神经网络只模拟了第二种通路。自上而下的视觉通路涉及生物视觉感知的 全局性、拓扑性、多解性 等特点，尤其是理解图像时会面临数学上的无穷解问题。而这些特点或许就是深度神经网络下一步的改进方向。

“视觉场景理解包括检测和识别物体，推理被检测物体之间的视觉关系以及使用语句描述图像区域。”依据《我们赖以生存的隐喻》的观点，物体关系相比于语义关系是更加基本的，因为语义关系背后都包含着物体关系的假设。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

就如下图中，两只猫猫在「互殴」，另一只猫猫在旁边不嫌事大地看热闹。通过这个例子，人类可以非常清晰直接地观察并捕捉到猫咪的位置、行为和关联。但许多深度学习模型却无法以相同的方式理解复杂实况，捕获全部信息并进行解析，因为它们不明白单个物体之间的「纠缠」关系。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

那么问题来了，如果「捋不清」这些关系，像被设计用于厨房的机器人就很难执行「拿起菜板左边的柜子下面的炉灶上的铁锅炖大鹅」此类指令。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

为了让机器人能够精准完成这些任务，来自麻省理工学院的 Shuang Li、Yilun Du 和伊利诺伊大学香槟分校的等人合作提出一款可以理解场景中物体之间空间关系的模型。该模型具有很好的泛化能力，能够通过组合多个物体的空间关系从而生成或者编辑复杂的图片。论文已作为Spotlight展示被NeurIPS 2021接收。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

总的来说，研究主要有三个主要贡献：

1. 提出了一个框架来分解和组合物体之间的关系，该框架能够生成和编辑图像根据通过组合物体之间空间关系描述，并且明显优于基线方法。

2. 能够推断出潜在物体之间的场景描述，并能够很好的理解物体之间的语义等效。语义等效是同样的场景但是不同的表述方式，例如苹果在香蕉左边和香蕉在苹果右边。

3. 最重要的这个方法通过组合物体关系的描述可以推广到以前未见过的更复杂关系描述中。

这种泛化可以应用于工业机器人执行复杂多步骤的操纵任务，比如在仓库中堆放物品或组装电器。让机器能进一步“仿生”人类从环境中学习、互动，并且通过不断学习分解，组合从而很快适应新的环境和学习新的任务。

共同一作Yilun Du说道：“当我们看到一张桌子时，不会用空间坐标系的XYZ三轴来表达物体位置, 因为人类大脑不是这样工作的。我们对周围环境的洞悉是基于物体之间的关系。通过构建能够理解物体关系的系统，更有效地操纵机械从而改变周围场景。”

研究人员所提框架的亮点就在于，「它能以人类的方式“解读”场景中物体之间的关系」。

比如输入一段文本——木桌在蓝色沙发的右侧，木桌在木柜的前面。

系统首先将句子拆分为「木桌在蓝色沙发的右侧」和「木桌在木柜的前面」两部分，再逐一描述单独部分之间的空间关系，然后对每个关系概率分布建模，通过优化过程将这些分离的“结构”汇合，最终生成一个完整、准确的场景图像。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

研究人员使用机器学习中 「基于能量的模型」 编码每一对物体直接的空间关系，然后像乐高积木一样将它们组合起来从而描述整个场景。

“系统通过重新组合物体之间的描述，从而产生很好泛化能力，可以生成或者编辑以前没有见过的场景。”

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Yilun Du也表示：“其他系统是从整体上考虑场景中物体之间的关系，再根据文本描述中一次性生成场景图像。一旦包含更复杂的场景描述时，这些模型就无法真正的理解并且生产想要的场景图像。我们将这些单独的、较小的模型集成起来，实现对更多的关系进行建模，从而可以生产新颖的组合。

这个模型也可以逆向操作。给定一张图像和不同的描述文本，它能准确找到场景结构中与物体关系相匹配的描述文本。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

每种情况下，Nan Liu等人提出的模型都优于基线。

“我们的模型在训练过程中只见过一个物体关系描述，但是在测试中，当物体关系描述增加到两个、三个甚至四个的时候，我们的模型依然效果良好，其他机器学习方法则失败了。”

如图所示，图像编辑(Image Editing) 列出了不同方法在 CLEVR 和 iGibson 数据集上的分类结果。文中方法都大大优于基线—— StyleGAN2和StyleGAN2 (CLIP)。在 2R 和 3R 测试子集上的模型亦有优秀表现，所提方法对训练分布之外的关系场景描述具有良好的泛化能力。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

研究人员还请实验参与者评估生成图像和场景描述的匹配度。在描述包含三个物体关系的最复杂示例中， 91% 的人认为该模型比其他基线的性能更好

在模型代码网页上Interactive Demo的展示中，可以清晰看到新模型在多层物体位置中依然可以按照指令准确生成我们想要的图像。

OpenAI训练的神经网络模型「DALL·E」，也是可以根据文本标题为自然语言的各种概念创建图像。DALL·E 虽然可以很好的理解物体，但是不能够准确的理解物体之间的关系。

可以说Nan Liu等人提出的新模型鲁棒性十分优越，特别是在处理从未遇到的场景描述时，其他算法只能 望其项背 。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

虽然早期实验效果甚佳，但研究人员希望模型能够进一步在更复杂的真实世界场景中（比如具有嘈杂的背景和相互阻挡的物体时）执行任务。更进一步让机器人能够通过视频推断物体空间关系，然后应用这些知识来和周边环境中的物体交互。”

捷克技术大学捷克信息学、机器人和控制论研究所的杰出研究员 Josef Sivic 说：“开发出可以理解事物关系并且通过不断组合认识新的事物是计算机视觉领域至关重要的开放问题之一。他们的实验结果着实令人惊叹。”

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Nan Liu, 伊利诺伊大学厄巴纳香槟分校硕士。2021 年毕业于密歇根大学安娜堡分校，获得计算机科学学士学位。目前从事研究计算机视觉和机器学习。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Shuang Li, MIT CSAIL博士，师从Antonio Torralba。主要研究使用语言作为交流和计算工具以及构建可以持续学习并与周围世界互动的智能体。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Yilun Du，MIT CSAIL博士生，受 Leslie Kaelbling 教授、Tomas Lozano-Perez 教授和 Josh Tenenbaum 教授指导。他对构建可以像人类一样感知理解世界的智能体和对构建模块化系统感兴趣。曾在国际生物学奥林匹克竞赛中获得了金牌。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Joshua B. Tenenbaum，MIT脑认知科学系教授、CSAIL研究员。1993 年获得耶鲁大学物理学学士学位，1999 年获得麻省理工学院博士学位。Tenenbaum因对数学心理学和贝叶斯认知科学的贡献而闻名，他是最早开发并将概率和统计建模应用于人类学习、推理和感知研究的人之一。2018 年，R&D 杂志将 Tenenbaum 评为“年度创新者”。麦克阿瑟基金会于 2019 年授予他麦克阿瑟研究员称号。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

Antonio Torralba，MIT电气工程与计算机科学系 (EECS) 人工智能与决策系主任、CSAIL的首席研究员、MIT-IBM Watson AI Lab负责人、2021 AAAI Fellow。1994年获得西班牙电信BCN的电信工程学位，并于2000年获得法国格勒诺布尔国立理工学院的信号，图像和语音处理博士学位。他是“计算机视觉国际期刊”的副主编，并在2015年担任计算机视觉和模式识别会议的计划主席。2008年国家科学基金会职业奖，2009年IEEE计算机视觉和模式识别会议上获得最佳学生论文奖，2010年获JK国际模式识别协会颁发的Aggarwal奖。2017年Frank Quick Faculty研究创新奖学金和Louis D. Smullin优秀教学奖。

原创文章，未经授权禁止转载。详情见转载须知。

向人类再进一步｜MIT×UMich探索可以理解物体空间关系的人工智能

谷普下载提醒您

本文链接：http://www.gpxz.com/article/5738913c0309e3ab6353.html

上一篇：核心产品能力全面升级腾讯文档推出业内首个

下一篇：创业和投资10大范式变化远望资本田鸿飞创业

萌专题网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

网站模板 2024-07-03 15:50:24

万松人文纪念园.呼和浩特市万松福寿生态陵园有限责任公司

呼和浩特市万松福寿生态陵园有限责任公司.呼和浩特市万松人文纪念园经自治区民政厅、呼和浩特市民政局及和林格尔县政府批准，是一家民营投资亿元，集生态、旅游、人文、景观于一体的花园式陵园。万松园兴建于2011年8月，占地3000余亩、其中1140亩已经申请取得建设用地（类别：殡葬用地），其余1800余亩，为后期园区发展储备用地，已办理相关征收手续。一期工程建设已基本完成，建有仿古建筑主殿、配殿（面积7000余平米，其功能为承福殿、禅堂、多功能祭祀大厅、人文纪念博物馆、骨灰寄存中心、殡葬用品展示区等）销售中心（面积2000余平米）、园区路网、停车场、景观亭台楼阁、假山水系、神道、绿化及完善原有墓区和新建墓区两处等。

投资理财 2024-07-11 23:06:21

重庆市九龙坡区人民政府

重庆市九龙坡区人民政府公众信息网

行业信息 2024-07-11 13:38:23

压缩机配件

浙江欧德机械科技有限公司是专业生产、销售压缩机配件、压缩机气阀等技术开发为一体的生产厂家，欢迎来电咨询。

编程开发 2024-07-07 18:12:05

长沙凯和电器有限公司

驰誉空气能，格力空气能,美的空气能，空气能热水器价格首选―湖南凯和节能科技有限公司，10年专业技术，专业打造节能的中央热水工程。《质量服务诚信承诺示范单位》、《知名品牌》！400-630-8898

商业服务 2024-08-17 22:36:20

艺术留学

美行思远艺术留学,值得信赖的艺术生留学培训机构,提供专业美国英国等多国艺术类留学申请及作品集培训服务,已帮助数千名艺术生成功圆梦世界艺术名校！

商业服务 2024-08-18 00:28:29

浙江之声

浙江广播电视集团成立于2001年11月8日，是一家以广播电视为主业，兼营相关产业的综合媒体集团，是国内最具影响力的省级媒体之一。2016年，连续第六年荣获“中国500最具价值品牌”，位居全国媒体第五、浙江媒体第一。

网站模板 2024-11-13 16:18:26

江阴外贸谷歌推广

江苏小度网络运营服务有限公司定位于全网数字营销专家，公司服务范畴有：google优化推广，外贸seo整站优化，谷歌推广竞价广告，词条创建，百度seo推广，内外贸网站建设，以及facebook推广，外贸代运营等服务。拥有专业海外推广团队及执创人员，十年以上专业内外贸推广经验，为您的网站量身定制打造高质量的流量及询盘。

网络应用 2024-11-17 04:42:15

恩爱游戏网

恩爱游戏网是一个集海量游戏攻略、资深玩家社区、安全下载服务、个性化推荐和优质服务于一体的游戏平台。我们专注于为游戏爱好者提供全面、详细的游戏指南，以及安全、便捷的游戏下载服务，让您的游戏体验更加丰富多彩。快来与我们一起探索游戏的无限可能吧！

游戏网游 2024-11-26 16:17:59

成都坤舆空间科技有限公司,坤舆空间科技,坤舆空间

成都坤舆空间科技有限公司是新时期，立足于新领域，以“时空大数据+”为引领的高科技信息产业发展公司。公司主要围绕区域规划、规划设计、项目实施，到运维管理为主线展开四大业务板块，开展主营业务。

设计美化 2024-12-01 01:23:29

拉铆枪

余姚唐文工具有限公司是一家集设计,生产,销售于一体的专业工具的民营企业,主营各类高档手动拉铆枪,铆螺母枪,中空壁虎枪。拥有国内外专利53项,并通过高新技术企业认证和BSCI工厂检查。

设计美化 2024-12-05 23:50:54

曲靖论坛

曲靖论坛(www.0874bbs.com)是曲靖最大的网友交流互动社区，论坛创建于2010年4月，包括新闻、商家、商城、优惠券、娱乐等功能，致力于打造曲靖地区最温暖,真实,丰富的网上社区。

新闻资讯 2025-01-28 22:21:10

腾讯不得不说的故事 (腾讯不讲理)

不久前腾讯QQ二十年的消息在朋友圈刷屏了，话说OICQ的第一个版本220KB，程序包做得很小这件事情小林可以作证，并且还能补充一个有趣的细节，ICQ网络寻呼机&，WinZip自解压缩包还记得时间是在1999年的春节前后，小林正在深圳瀛海威机房值班，听说国内有个和以色列人开发的ICQ，ISeekYou，很像的聊天软件叫OICQ，O...。

2025-01-30 18:46:44

二三线城市怎么开个儿童阅读馆 (二三线城市怎么赚钱)

很多人咨询书果星球儿童阅读加盟馆开在二、三线城市行不行，具体怎么开，01明确定位书果星球儿童阅读加盟馆的模式新颖，打破只卖书的传统书店模式，将童书借阅与阅读指导相结合；注重能力培养，不培养，读死书，的孩子，而是以阅读的方法塑造面向未来的孩子，02活动引流转化书果星球总部会为阅读加盟门店提供完整的活动方案、材料包等，线上，线下引流转化，...。

2024-12-21 14:29:59

蓝色欣雨护肤品好用吗 (蓝色欣雨护肤品价格)

随着微信朋友圈的广泛使用，朋友圈已成为人们交流的主要工具，微商，这个行业应运而生，微商在朋友圈发布产品信息，好友觉得合适，就会微信购买，不少微商做起了护肤品代理，蓝色欣雨护肤品就是其中之一，蓝色欣雨护肤品好用吗，下面为大家详细介绍下蓝色欣雨护肤品，蓝色欣雨护肤品主要包括，蓝色欣雨面膜、精油系列、身体护理套装等等一系列产品，蓝色欣雨产品...。

2024-12-02 21:36:50

亚马逊要把Alexa放到太空飞船里了宇航员飞天的AI助手 (亚马逊要把不同的词分组打广告吗)

NASA，卡里斯托，的艺术渲染图当美国宇航局在未来几个月首次推出其新型大型深空火箭时，熟悉的语音助手和视频电话会议工具将随之而来，亚马逊的Alexa语音助手版本和思科的Webex视频会议平台将飞往太空的飞行中，作为技术展示的一部分，NASA将评估这些工具是否有利于宇航员未来飞往月球和火星等遥远目的地，即将到来的太空人物被称为阿尔忒弥斯...。

2024-12-01 00:41:21

NBA2kol2被锁包 (nba2koline官网)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 16:32:12

可以带兵打仗的手机游戏 (可以带兵打仗的单机游戏)

带兵打仗的手游介绍如下，1、小小军团2，小小军团2，是首款以三国为背景的欧美Q风战略卡牌RPG游戏，经常使用Unity3D引擎制造，2、合战三国，合战三国，由TrinitiInteractive研发的一款卡牌RPG游戏，风趣逗趣的三国角色，手机上的，片面抗争，！25vs25将领对垒，2000个迷你战士同屏激战开疆扩土市区运营，扑灭指尖...。

2024-07-08 22:45:50

出口发起机的面包车有哪些 (什么是出口机)

丰田海狮，福特Transit，1、丰田海狮，新款丰田海狮7座3.5六缸纯出口面包车，婚配了3.5L汽油发起机，变速箱为6速智能，2、福特Transit，搭载了一款2.0TEcoBlue柴油发起机，驳回了低压共轨燃油系统和双涡轮增压技术，能够在低速时提供更强的能源输入，还具有高的燃油经济性和环保性能，丰田海狮7座丰田海狮7座有混动版依据...。

2024-07-08 01:01:50

蒸馏水可以参与汽车水箱外面吗 (蒸馏水可以参多少海水还可以饮用)

蒸馏水可以参与汽车水箱外面，而且是最好的选用，由于外面没有任何的矿物杂志，可以防止损坏车体，然而由于多少钱太高，所以并不适用，而且成果也并不比普通水好多少，蒸馏水就是将水蒸馏、冷凝的水，蒸二次的叫重蒸水，三次的叫三蒸水，低耗氧量的水，参与高锰酸钾与酸工业蒸馏水是驳回蒸馏水方法取得，肌断食水是不是蒸馏水肌断食水和什么一同敷，导读，肌断...。

2024-07-07 05:35:39

荣威轿车有哪几款 (荣威轿车有哪些)

荣威汽车旗下的轿车车型包含荣威360、荣威i6、荣威i5等，荣威旗下的轿车车型在A＋级轿车市场具备必定的市场位置，汽车在十万元左右的车型中具备杰出的竞争长处，荣威是上海汽车个人旗下的汽车品牌，在2006年正式推出，荣威汽车的品牌秉承着品牌科技成功的口号，表白了荣威以国内化的视线翻新的汽车制作理念打造汽车，荣威旗下的产品有荣威350，荣...。

2024-07-05 22:35:43

如何在电视高低载影视大全 (如何在电视高清播放)

在运行商店间接搜查，1、关上电视，按Home，如遥控器上的小房子，按钮，经常使用方向键找到相似更多运行的图标，2、选用后按OK键，在运行商店中，找到搜查框，点击确定按钮，屏幕下方会产生一个键盘此时，3、用方向键选用要搜查的软件称号的首字母，找到间接点击下载即可，影视大全，是一款视频聚合类产品，近千万人选用用影视大全在线不要钱观看视频，...。

2024-07-05 19:52:15

STOIKPanoramaMaker(图形编辑器软件)下载v2.1.3.4914官方版-

STOIKPanoramaMaker(图形编辑器软件),STOIKPanoramaMaker是一款专业实用的优秀图形编辑软件，软件能够帮助您轻松的制作出各种华丽的全景图形，还能够通过软件对电脑中已有的图像进行编辑处理，软件还提供了完全自动化和先进的人工全景拼接功能,您可以免费下载。

2023-08-11 17:25:08

文章推荐

第二季度全球电视出货量年增2% 海信刷新单季出货纪录集邦咨询 (第二季度全球手机销量)

近日，集邦咨询发布2023年全球电视品牌出货量数据，第二季度全球电视出货量年增2%海信725万台刷新单季出货纪录，据TrendForce集邦咨询预估，今年第二季全球电视出货量将达4，663万台，季增7.5%，年增2%，主要受惠于中国品牌在618电商节庆备货动能强劲，以及部分中国品牌海外市场销售优于预期，同时也是连续七个季度后首次出现2...。

2025-02-02 19:10:42

资讯动态

我终于搞清了啥是HTTPS了 (我终于弄清楚了这句话的意思)

在家百无聊赖的刷着网页，看到公众号后台的留言，有同学问我HTTP和HTTPS有啥区别?这还用问，当然是HTTPS要比HTTP更加的安全啊，没看到后面带着个S呢么，带着S就这么NB，然后同学的下一个问题把我问懵逼了，为啥带S的更安全呢?能详细的讲讲么，我跟你讲嗷，不是我吹，我这么多年，就没见过你这么刨根究底的同学，老问这种我也...。

2025-01-31 01:56:13

网络百科

安童一小儿推拿如何开一家小儿推拿店做好这些要点很重要！ (安童一小儿推拿怎么样)

自2012年，国家成立小儿推拿技术协作组开始，在短短几年时间里，发布了一系列促进小儿推拿行业发展的政策，且呈不断增加的趋势，既为小儿推拿行业的发展提供了根本，也起到了助力作用，另外，再加上中医药行业的迅速发展，全国各地燃起了一股小儿推拿热潮，小儿推拿门店的数量持续上升，整个行业市场火热不已，前景广阔，许多中医院、保健机构、母婴机构、月...。

2024-12-21 16:53:10

创业加盟

供应链整合渠道分利长城新能源转型的资源调配灵魂三问 (供应链整合渠道有哪些)

3月10日晚上7点，长城在保定召开了一场新能源大会，早在一周之前，主办方就为大会定下了基调，称这将会是一场，颠覆式，的大会，会发布长城新一年的新能源战略，李瑞峰也在3月初的一场媒体沟通会上称，这场会上将发布长城明星品牌哈弗在新能源上的命名序列，同时也会有新的定价模式和策略，新的一年长城汽车的核心是全面转型新能源，而战略、战术如何执行尚...。

2024-12-09 18:07:02

资讯动态

包括但不限于亮度选购智能投影仪的要诀 (包括但不限于举个例子)

发表在综合交流大区2018，12，2014，47越来越多的科技产品走进了我们的生活，无时无刻不在影响着我们，手机从单一的通信工具，演变成人手必备的重要设备之一，手表也不再只能看个时间，还能记录身体状况、运动数据、接收消息等，家里的电视，从前都是电视台播什么看什么，现在的电视还能上网看视频、看点播，笔记本电脑越来越轻薄，性能也越来越强，...。

2024-11-28 17:00:39

网络百科

MIT×UMich探索可以理解物体空间关系的人工智能 向人类再进一步

相关文章

文章推荐

MIT×UMich探索可以理解物体空间关系的人工智能向人类再进一步