谷歌又推出全新世界模型助力导航继LSTM之父用世界模型来模拟2D赛车后就问你怕了没 360度无死角 (google全)

文章编号：42116 资讯动态 2024-12-03 世界模型导航机器人

近年来，世界模型（World Model）在机器人、模拟与强化学习中均取得了出色的研究结果。

2018年，Jürgen Schmidhuber 与 David Ha 首次以无监督的方式训练世界模型，使模型能快速学习环境中的压缩时空表征，再将世界模型中的特征作为智能体的输入，训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务。

今年2月，Google AI 也用世界模型，在 Atari 游戏中实现了达到人类水平的表现。

但是，相比简单的游戏环境，现实的世界环境要复杂得多。

不久前，在发表于 ICCV 2021 的一篇工作（“Pathdreamer: A World Model for Indoor Navigation”）上，Google AI 团队提出了一个世界模型，叫作“Pathdreamer”，可以仅基于有限的种子观察与原先计划的导航路线，生成一幅智能体“肉眼”不可见的建筑物区域的、360º 高清摄像。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

论文链接：

Google AI的团队将Pathdreamer应用于机器人导航任务中，成功率高达50.4%！仅比ground truth设置低了 8.6%（59%）！

1、什么是世界模型？

世界模型（World Model）首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出，主要出发点是打造一个通用强化学习环境的生成神经网络模型，为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

论文地址：

在人对世界的理解过程中，我们往往是以有限的感官所能感知到的事物为基础，形成一个心理世界模型。我们所做的决定和行动都是基于这个模型。

为了处理流经我们日常生活的大量信息，我们的大脑学会了信息的空间域和时域的抽象表示。我们能够观察一个场景并记住其中的抽象描述。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图注 / 世界模型示例，源自 Scott McCloud 的《理解漫画》一书

证据还表明，我们在任何时刻所感知的，都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的。

心理模型不仅仅是预测未来，而且会根据我们当前的运动行为来预测未来的感官数据。我们能够在这种预测模型上采取行动，并在我们面临危险时表现出快速的行为，而不需要有意识地规划一个行动路线。

以棒球为例，一个棒球运动员只有毫秒级的时间来决定如何挥动球棍，这个时间甚至比视觉信号从眼球传到大脑的时间还要短。对专业运动员来说，这个动作几乎是下意识的，他们的肌肉在正确的时间和地点挥动球棍，与他们内部模型的预测一致。他们可以根据他们对未来的预测迅速采取行动，而不需要有意识地推出可行的击球计划。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

在许多强化学习问题中，智能体既需要一个对过去和现在状态的良好描述，还需要一个优秀的模型来预测未来的状态。作为真实世界的一个表征，世界模型采用无监督的方式进行训练，能取得较好的策略。

2018年，当 Jürgen Schmidhuber 与 David Ha 提出世界模型后，他们将世界模型用于解决一个赛车竞速的强化学习任务。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

带有预测能力的世界模型可以有效地提取空域与时域特征，再将这些特征应用于控制模型，然后训练一个最小的控制模型来完成连续域控制任务，即赛车。

2、Pathdreamer的诞生

受到 Jürgen Schmidhuber 等人的工作启发，谷歌团队开始将世界模型的研究思想应用在同样是智能体控制的机器人导航任务中，使用世界模型来获取周围环境的信息，使智能体能够在特定的环境中预测自己的行为后果。

图 / 世界模型的工作原理

在了解Pathdreamer之前，我们不妨设想一下：

如果你出去旅游，住进一间完全陌生的民宿，你会如何判断房子的方位？

一般来说，当我们推开大门，我们会知道首先映入眼前的是客厅，然后顺着客厅猜测卧室、厨房、阳台等等空间的方位。继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图 / 人的导航习惯是依据眼前所见之物来判断

那么，机器人呢？如果一个机器人来到一个完全陌生的房子里，它会如何导航？

人在判断方位时，善于利用视觉与常识，通过眼前的事物推理出空间的布局，从而找到自己的目标。但是，对于机器人来说，在一个新的建筑里，要利用语义线索与事物的规律分布来定位，并不是一件容易的事。

此前，针对上述问题，Facebook AI 提出了一个算法，叫“DD-PPO”，主要是：通过无模型强化学习（model-free reinforcement learning），以端到端的方式让智能体学习辨认一个空间内的线索、并利用这些线索来完成导航的任务。

但是，这种方式的学习成本高，难以检验，而且泛化难，另一个智能体必须从头开始学习同样的方式、才能掌握依据理解线索来定位的能力。

相比之下，Pathdreamer 模型可以从单一视角合成一幅沉浸式场景图，预测当智能体移动到一个新的视点、或是移动到一个完全看不见的区域（比如角落）时，智能体可能会看到什么。

这不仅可以用于视频编辑、使照片看起来栩栩如生，最重要的是，它还可以将人类环境的知识告诉机器智能体，帮助机器人在现实世界中定位导航。

比如，如果我们给机器人一个任务，让它在一栋陌生的建筑里寻找某个房间或物体，那么它就可以先在世界模型中进行模拟，学习识别物体在空间中可能的位置，减少实际投入后的导航错误。

除了模拟导航以外，机器人在Pathdream等世界模型中训练，还可以增加训练数据的数量。

3、Pathdreamer的工作原理

Pathdreamer 将原来的一个或多个观察序列作为输入，生成通往目标位置的预测路线。预测的路线是事先提供，或由智能体在返回途中接触到的观察迭代更新。输入与预测均包含 RGB、语义分割与深度图像。

在内部，Pathdreamer 使用了 3D 点云来表示环境的表面。云中的点都标了它们的 RGB 颜色值和它们的语义分割类，比如墙壁、椅子或桌子。

要在新的建筑物里预测即将映入眼前的事物，首先要将点云重新投射到新建筑的 2D 图像中、以提供“指导”图像，然后，Pathdreamer 会从中生成逼真的高分辨率 RGB、语义分割和深度。

随着模型的“移动”，点云会积累新的观察结果（要么是真实的，要么是预测的）。使用点云来记忆的一个优势是时序一致性（temporal consistency）——重新访问的区域会以与先前观察一致的方式呈现。

为了将指导图像转换为合理、真实的图像输出，Pathdreamer 分为两个阶段运行：第一阶段，用结构生成器生成分割和深度图像；第二阶段，用图像生成器将分割与深度图像渲染为 RGB 输出。

从概念上讲，就是第一阶段提供了关于场景的合理高级语义表示，第二阶段再将其渲染为逼真的彩色图像。这两个阶段都用到了卷积神经网络（CNN）：

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

在具有高度不确定性的区域，比如拐角或视线以外的房间，可能会出现许多不同的场景。而Pathdreamer能够生成满足区域高度不确定的多样化结果。

有感于受到纽约大学Rob Fergus与Emily Denton提出的随机视频生成思想，Pathdreamer的结构生成器以噪音变量为条件，该变量表示指导图像中没有捕获的下一个导航位置的随机信息。通过对多个噪音变量进行采样，Pathdreamer可以合成多个不同场景，允许智能体在一条给定的导航路线中对多个合理的结果进行采样。

这些不同的输出不仅反映在第一阶段的输出（语义分割和深度图像）中，还反映在生成的 RGB 图像中。

如下图所示，最左侧的一列指导图像表示智能体先前看到的像素。其中，黑色像素表示智能体原先看不见的区域，对此，Pathdreamer 通过对多个随机噪声向量进行采样，生成了不同的图像输出。在实践中，当智能体在一个环境中定位导航时，它可以通过新的观察结果来生成输出图像。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

Pathdreamer 基于来自 Matterport3D 的图像和 3D 环境重建进行训练，并且能够合成逼真的图像与连续的视频序列。由于输出图像具有高分辨率和 360º 无死角的特征，现有的导航机器人可以轻松地将图像转换，以适应机器人配有的相机视野。

4、将Pathdreamer应用于视觉导航任务

他们将 Pathdreamer 应用于视觉与语言导航 (VLN) 任务，其中，机器人必须遵循自然语言的指令定位到真实 3D 环境中的某一个位置。他们使用 Room-to-Room（R2R）数据集进行了一项实验，让指令机器人在模拟多条可能的行走轨迹前进行规划，并根据导航指令对每一条轨迹进行排名，然后选择排名第一的轨迹进行导航。

实验考虑了三种设置：

1）地面实况（ground truth）设置：机器人通过与真实的环境互动（比如移动）来进行规划；

2）基线（Baseline）设置：机器人提前规划，无需与导航图交互、对建筑内的导航路线进行编码，但没有提供任何视觉观察；

3）Pathdreamer 设置：机器人提前规划，无需与导航图交互，且还能接收到Pathdreamer所生成的对应视觉观察。

在Pathdreamer设置中，机器人提前三步（大约6米）规划，导航成功率高达 50.4%，而基线设置的成功率只有 40.6%。这表明，Pathdreamer对现实室内环境中的有用、且可以访问的视觉、空间与语义知识进行了编码。

而在地面实况的设置中，机器人通过移动进行规划，导航成功率达到了 59%。不过，地面实况设置要求机器人花费大量的时间与资源进行多轨迹探索，在现实世界中的代价可能十分高昂。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

图注：VLN机器人在三种设置（地面实况、基线与Pathdreamer）中的表现

实验结果表明，类似 Pathdreamer 的世界模型在处理复杂的导航任务中具有出色表现。

参考链接：

1、

2、

3、

4、

5、

6、

7、

8、

原创文章，未经授权禁止转载。详情见转载须知。

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

本文地址： https://www.gpxz.com/article/44c2fe47b9650ed64e5a.html

上一篇：经济而生的AIGoogle对话算想未来创始人AWS

下一篇：登上热搜；李佳琦薇娅一天卖了189亿；法拉第未

上海网站

上海网站排名,根据网站的综合值按照不同的上海网站进行筛选排名结果,通过筛选上海网站可以看到每个上海网站里面的网站排名优质的网站是哪些

网站模板 2024-11-13 10:59:15

智能印章

江苏群杰科技有限公司专注数字化风控管理，推出包括群杰智能章筒、智能印控台、智能盖章机、智能印章柜、智能印章管理平台在内的印章合同智能化管理产品及解决方案。目前群杰已服务超3500家客户，服务范围涵盖建筑、地产、金融、制造、政务等众多行业。

财经金融 2026-01-25 19:31:00

陕西网络广播电视台

陕西网络广播电视台是陕西电视台、陕西卫视、陕西人民广播电台、陕西广播电视台官方音视频网站。是陕西最大的网络广播电视服务机构。为用户提供陕西新闻、西安新闻、国际国内新闻、社会新闻、体育娱乐新闻等音视频服务。以及都市快报,第一新闻,秦腔,秦之声,好管家,夺宝秦兵,都市热线,碎戏,秦岭夜话,啸声雷语,长安夜话,超级麦克风等优秀广播电视节目。

电影视频 2026-01-25 22:24:22

码上游二维码生成器

码上游二维码生成器可轻松把视频、语音、图片、文档放入二维码,适用于企业宣传,产品说明书,博物馆展品语音讲解等业务

电影视频 2026-01-28 17:04:22

江西联润桥梁工程有限公司

江西联润桥梁工程有限公司，注册资本1088万元，坐落于江西省新余市渝水区春龙大道999号，占地50000余平方米.建有10000余平方米的现代化标准钢结构厂房。公司已通过ISO-9001质量体系认证，我公司生产的产品有：钢筋网片（冷轧带肋钢筋网，热轧钢筋网片），预应力金属波纹管、预应力镀锌金属波纹管、预应力塑料波纹管，声波检测管、经过多年的市场拼搏，现发展成集预应力混凝土金属、塑料波纹管、碳素螺旋管、钢筋网片等建筑机械研发、加工生产、销售为一体、拥有技术员56名的大中型企业。

企业品牌 2026-01-28 18:21:19

通过式抛丸机

青岛普华重工是一家专业生产抛丸机的厂家,主要产品有通过式抛丸机,路面抛丸机,喷砂房,喷漆房等，是目前国内首家集表面清理抛丸设备,铸造机械,涂装生产线,数控锻压及自动化设备科研开发,多行业生产贸易为一体的高新技术企业。

编程开发 2026-01-28 23:27:54

徐州品上空调科技有限公司

公司是专业从事工程机械、重型卡车空调系统研发、制造、学术交流的服务型制造企业。根据客户的需求，定制、设计、研发、生产特种车辆空调，并以生产起重机系列、装载机系列、平地机系列、压路机系列、挖掘机系列、重型卡车系列等5大类。我公司拥有先进的生产技术设备，科学的管理制度和完善的检测手段。公司通过ISO9001：2008质量保证体系、ISO14001：2004环境管理体系及GB/T28001-2001职业健康安全管理体系认证。

设计美化 2026-01-29 14:12:02

学而思素养

学而思素养成立于2021年9月，是好未来集团旗下专注于3-16岁儿童和青少年的素养教育品牌。依托学而思多年教研沉淀，结合建构主义和脑科学对儿童认知发展的研究，以“激发兴趣”为核心价值，以“学以致用”为培养目标，学而思素养不断升级迭代了人工智能编程、机器人、科学实验、科学思维和人文创作等多门自主研发的素养课程，构建探究式、互动式课堂，培养孩子面向未来的创新能力和科学家精神。

编程开发 2026-01-15 17:30:58

3975游戏

39游戏平台是专业的游戏运营平台，为中外游戏用户提供精品游戏；三九互娱致力于游戏精细化运营与优质的客户服务，成为深受玩家喜爱的国际化品牌游戏运营商。

游戏网游 2025-02-15 00:05:14

有谦软联

有谦软联是国内领先的数字政府服务和运营提供商、中国数字政府标杆企业，深度参与中国政府数字化转型，服务国家治理体系和治理能力现代化。

商业服务 2025-02-24 21:58:05

纸嫁衣系列游戏合集

小编将把纸嫁衣系列全部整理，在下方看看有没有自己想玩的游戏吧，将打造一个较为逼真的场景画面，丰富的剧情解谜内容，加入了民间传说以及更多元素玩法，对于喜爱游玩解密推理游戏内容的玩家们，可一定不要错过这款经典的解谜游戏哦。

游戏网游 2026-02-02 18:01:10

山东霞光照明工程有限公司

山东霞光照明工程有限公司是一家大型综合性的景观灯厂家,主要生产各种景观灯,草坪灯以及太阳能路灯等户外照明产品,产品广泛适用于公路,街道,广场,公园,小区以及别墅庭院等场所,是一家临沂太阳能路灯厂家.

综合门户 2026-02-11 17:43:42

那些年拼杀版权的视频网站布好VR的局了吗 (那些年原版)

虚拟现实与影视到底有什么关系，主要是虚拟影院、环视内容、VR影片三个层面，具体到视频网站，可以看看Youtube做了些什么事，例如对3D技术的支持、60fps帧速率结束内测、支持360°视频的播放等，这是对VR利好，也是对技术的追求，归根结底也就是对用户负责，国内VR领域非著名专业人士如是说，那么问题来了，形势逼人，那些年拼杀版权...。

2024-12-09 21:49:05

买模型还是买管线全球药企拥抱AI大模型进行时 (买个模型)

将大型语言模型指向生命科学，将释放出哪些可能，一个最大的利好是，AI制药公司将多出一种新的商业模式，10月10日，百图生科，BioMap，宣布与全球Top10的医药跨国公司赛诺菲达成战略合作，将这种商业愿景变成现实，根据协议，双方将基于百图生科所研发的生命科学大模型，共同开发用于生物治疗药物发现的领先模型，用于生物制剂设计和优化的特定...。

2024-12-09 21:40:20

Server TencentOS 腾讯云Linux服务器操作系统通过安全可靠测评 (server_install服务无法启动)

5月20日，中国信息安全测评中心发布安全可靠测评报告，腾讯云Linux服务器操作系统，TencentOSServer，顺利通过测评，并获得安全可靠等级，I级，这标志着TencentOSServer的产品能力和自主研发实力得到了国家权威机构的认可，据了解，安全可靠测评通过对产品及其研发单位的核心技术、安全保障、供应链安全、持续发展等方...。

2024-12-03 19:08:34

英伟达策略初步奏效三芯 (英伟达技术路线)

相比几年前谈论的重点只有GPU，在拥有CPU和DPU之后，英伟达作为系统公司能够谈论的话题更加丰富，在刚刚过去的Computex和时隔两年重新回归线下的ISC2022，国际超级计算机大会，，英伟达都展示了诸多其GPU、CPU、DPU的最新合作成果，这在很大程度上表明了英伟达的，三芯，策略已经初见成效，另外，英伟达在混合量子计算中的成果...。

2024-12-03 17:51:11

联想小新520和坚果G9S哪款好实际配置分析哪款值得入手 (联想小新520投影仪参数)

发表在坚果投影仪2022，6，216，56联想小新520是联想官方推荐的轻薄投影仪，整机的性价比不错，那么这款投影仪和同价位的坚果G9S对比有什么区别呢，下面就通过详细的参数配置进行分析，看看哪款投影仪值得入手，联想小新520和坚果G9S有什么区别，1.光学参数在亮度方面，联想小新520的亮度为850ANSI流明，对比坚果G9S的80...。

2024-11-28 20:44:01

涉巴基斯坦卡拉奇机场左近恐袭案 2名嫌疑人已被拘捕

外地期间11月11日，巴基斯坦信德省外交部长兰贾尔在今日的资讯颁布会上证明，两名涉嫌发起10月6日巴基斯坦卡拉奇机场左近恐惧袭击事情的嫌疑人已被拘捕，△信德省外交部长兰贾尔在11日的颁布会上讲话外地期间10月6日23时许，中资企业卡西姆港发电有限公司车队在巴基斯坦卡拉奇真纳国内机场左近遭逢恐惧袭击，目前已形成2名中方人员遇难、1名中方...。

2024-11-13 05:47:14

卢比奥为美国国务卿美媒特朗普有望任命反华急先锋 (卢比奥为美国做了什么)

[文，观察者网王恺雯]，纽约时报，外地时期11月11日征引三名信息人士的话说，美国入选总统特朗普正在迅速组建其外交政策和国度安保团队，他或将任命佛罗里达州联邦参议员、鹰派政客马可·卢比奥，MarcoRubio，为美国国务卿，路透社、美国有线电视资讯网，CNN，等内媒今日也征引信息人士的话说，特朗普或者会选用卢比奥负责美国国务卿，CNN...。

2024-11-12 16:07:39

什么浏览软件可以离线下载小说? (什么浏览软件最好用)

1、ePUBee是一个高品质的电子书网站，超级良知，它应该是世界最大的收费电子书库，领有超越10万本书籍和50万个文件版本，你总能在这里找到适宜你浏览器的电子书文件，该网站的分类明白，便于书籍治理，2、飞库网是一个提供小说下载、txt选集收费下载和txt电子书下载的网站，它还提供正版txt、apk、android、iphone等手机电...。

2024-07-01 00:43:27

上大周边美食推荐：张拉拉_小胖和猪猪

上大周边美食推荐：张拉拉_小胖和猪猪_新浪博客,小胖和猪猪,

2024-05-14 18:30:40

【酷狗音乐下载】2023年最新官方正式版酷狗音乐免费下载

腾讯软件中心提供2023年最新10.1.93.25473官方正式版酷狗音乐高速下载，本正式版酷狗音乐软件安全认证，免费无插件。

2023-09-19 01:05:42

售35.98万元，雷克萨斯NX创游特别版车型上市|新车|内饰|变速器|发动机|雷克萨斯nx

售35.98万元，雷克萨斯NX创游特别版车型上市,新车,内饰,创游,变速器,发动机,雷克萨斯nx

2023-09-19 01:00:31

闫妮：我演电影，献丑了_谈心社

闫妮：我演电影，献丑了,闫妮,演员,电影,喜剧,武林外传

2023-09-02 14:51:58

文章推荐

华为智能开关如何申请代理 (华为智能开关面板)

华为在市场上的名气是比较大的，其经营的产品种类也是比较丰富的，而且产品质量也是有确保的，一些创业人士对华为智能开关感兴趣，想要知道华为智能开关如何申请代理，下面一起跟随小编往下看看吧！华为是我国的知名品牌，随着家居行业的发展，品牌开始步入智能家居行业，其中华为，HiLink是华为开放的智能家居线上体验平台，丰富的测试工具，在线上就能实...。

2024-12-22 00:10:17

创业加盟

华为商城荣耀品牌盛典最高优惠300元荣耀30系列入手正当时 (华为商城荣耀手机)

引言，目前全国大部分地区都是疫情低风险地区，中秋节叠加国庆节的黄金周临近，毫无疑问，探亲访友、旅行将会是大多数人的选择，对于一段旅程的开启，过去我们离不开相机、导航以及林林总总的工具，而现在，我们只需要一台荣耀30系列手机，就能开启一段说走就走的旅行，正赶上9月15日华为商城荣耀品牌盛典，今天，笔者就给大家介绍荣耀30系列——这是荣耀...。

2024-12-10 01:00:38

资讯动态

品牌眼镜加盟店排行榜 (品牌眼镜加盟连锁店)

生活中人们使用眼睛频率很高，所以说很多人也出现了近视眼的现象，因此也有很多的眼镜行业发展还是比较好的，所以很多想要自己创业的人也看好了眼镜店的加盟，眼镜店其实还是有很多种不同品牌的，在进行品牌眼镜加盟的时候，也应该有了解相关的排行榜，那么品牌眼镜加盟店排行榜都有哪些呢，下面就来详细的了解一下，几个比较不错的品牌，1、吴良材眼镜吴良材眼...。

2024-11-22 21:46:21

创业加盟

一位中年大叔的互联网人生 (中年大叔啥意思)

大概五年前，偶然间，我看到一个微博用户，和别人不同，他从不转发，不发照片视频，也没有参与抽奖等，每一条都是纯文字，写得很长，标点符号用得很对，表现出一种上一代人在对待书面语时特有的郑重，于是我点进去，果然这个没有什么粉丝的用户是五六十年代生人，算算年纪已知天命，每一天他都在微博流水账式记录自己一天的生活，做了什么，见了谁，谁来做客，说...。

2024-11-21 23:07:06

好文分享

杭州宴席帮网络科技有限公司怎么样 (杭州宴会)

杭州宴席帮网络科技有限公司是2018，02，12在浙江省注册成立的有限责任公司，自然人投资或控股，，注册地址位于浙江省杭州市余杭区塘栖镇顺风路536号25幢201室，60，杭州宴席帮网络科技有限公司的统一社会信用代码，注册号是MA2B0WCM45，企业法人钱凯，目前企业处于开业状态，杭州宴席帮网络科技有限公司的经营范围是，软件设计与开...。

2024-11-18 19:32:00

资讯动态

谷歌又推出全新世界模型助力导航 继LSTM之父用世界模型来模拟2D赛车后 就问你怕了没 360度无死角 (google全)

相关文章

文章推荐

谷歌又推出全新世界模型助力导航继LSTM之父用世界模型来模拟2D赛车后就问你怕了没 360度无死角 (google全)