产学研共促技术创新与产业应用 智源举办2024具身与世界模型专题峰会 (产学研共建)

文章编号:36139 资讯动态 2024-11-30 具身智能 多模态大模型 智源

2024年11月5日,北京智源人工智能研究院主办的“智源论坛·2024具身与世界模型专题峰会”在智源大厦举行,智源研究院理事长黄铁军、智源研究院院长王仲远、智源研究院副院长林咏华出席大会。智源具身多模态大模型研究中心负责人、北京大学研究员仉尚航,智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤,google deepmind研究科学家,谷歌RT1、2,SayCan作者Ted Xiao以及来自清华大学、香港大学、康奈尔大学、UC Berkeley、英国曼彻斯特大学、大湾区大学(筹),中国科学院等知名高校和研究机构的学者专家,加速进化、傅利叶、乐聚机器人、星尘智能等具身智能头部企业的创始人、CEO围绕具身智能和世界模型的前沿方向、技术实践进行了主题分享与深度探讨。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

具身智能的发展,无论是硬件稳定性,数据采集与仿真,具身大小脑模型分层架构或者端到端技术路线,还是终端使用场景,都面临诸多挑战,需要产学研深度协同与广泛联动。智源研究院院长王仲远在开幕式致辞中表示,智源研究院将依托多模态大模型技术优势资源,联合北大、清华、中科院等高校院所以及银河通用、乐聚、加速进化、宇树等产业链上下游企业,建设具身智能创新平台,重点开展数据、模型、场景验证等研究,共同打造具身智能创新生态。

智源具身多模态大模型研究中心创新地设计了面向机器人具身基础模型的快慢系统框架,快系统能够高效快速的预测末端执行器位姿,慢系统则是在面对复杂和错误行为时更加深入地思考和纠错,不断提升机器人大脑的能力。为了实现该快慢系统框架,智源探索了具身端到端以及大小脑分层结构的不同技术路线,进行开放世界泛化物体操作,并基于大脑模型进行语义理解与常识推理,实现零样本物体导航。无论是端到端模型还是分层结构,最终都是为了让机器人能更好地理解物理世界规律,更好地与环境交互,更好地执行时序上的准确行为。因此,智源同时提出了四维世界模型Robo4D,为世界模型构建四维时空,以解决机器人在开放世界中任务操作的物体泛化以及场景泛化等问题。相关研究被国际旗舰会议NeurIPS 2024、ICML 2024接收。

智源具身多模态大模型研究中心利用世界模型预测机器人与环境交互后的未来事件,从而生成准确的行为,提前预测行为是正确还是失败。智源设计的世界模型的技术路径是,首先将世界模型启动和响应模态设置为视频模态,给定关于动作的语言指令和当前机器人的状态去生成机器人执行完动作后的完整视频。针对给定的任务,模型可以完整预测任务执行的过程,从物理世界中学习规律,生成视频之后,通过模型将视频转换成机器人的行动。其中,任务到视频生成以及视频到行动的过程,利用了智源原生多模态世界模型Emu3将理解和生成大一统的技术思路,形成自我反思的思维链。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

智源具身多模态大模型研究中心负责人仉尚航认为,近期的一系列工作展现出具身基础模型的广泛前景,中心将继续探索具身多模态大模型与大数据构建,践行机器人领域的Scaling Law。实现真实世界的四维时空世界模型是迈向机器人整体AGI的重要一步。四维世界模型将作为机器人的世界基础模拟器,同时具备时间与空间智能,拥有长短期记忆与物理概念学习等能力,与真实物理世界进行交互并从中得到反馈。

智源具身多模态大模型研究中心在近期的研究中将世界模型从二维拓展至四维,采用先验引导的3D Gaussian Splatting算法,基于单一视角的视频片段生成四维世界空间。采用多轮世界空间映射模型将不同位置的世界空间映射到视频域,最终应用于下游任务,生成式数据提升了机器人操作的泛化性。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤在特邀报告中强调,空间智能要注重三维信息的使用,否则对空间几何的理解非常有限,还需注重交互智能,而交互智能背后所需的大量数据应该用合成数据替代真实世界的数据采集,才能达到大模型所需要的数据规模,实现真正的泛化性。

目前,智源具身智能研究中心展开了一系列技能的泛化研究和具身端到端大模型的训练研究。首先把二维真实世界看到的二维图像升维到三维,用扩散模型预测视差。并自研了大规模动作数据的仿真合成技术,覆盖了桌面物体摆放、桌面纹理、光照等各种空间形态和位置关系,在仿真器中对光线折射和反射进行仿真并进行渲染。目前团队最新的进展是完成了10亿规模的灵巧抓取数据集DexGraspNet 2.0,覆盖了基于各种物体的大规模的抓取标签生成,在这样的大规模数据上训练的灵巧手抓取模型率先实现了泛化场景真机成功率90%以上。

在端到端模型研发方面,团队训练了全球首个基于视频流的端到端导航大模型NaVid,无需建图,也不依赖于深度信息和里程计信息等其它传感器信号,完全依靠机器人摄像头采集的单视角RGB视频流,通过Sim2Real的方式,实现在真实世界室内场景甚至是室外场景的zero-shot真机泛化。近期,智源在导航大模型加入了三维模态,提出了端到端空间导航大模型NaVid-4D,该模型在一系列有更高要求的自然语言指令导航任务中实现了进一步突破。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

大会期间,智源研究院院长王仲远主持具身智能技术与应用发展前沿展望圆桌讨论,清华大学自动化系教授,加速进化联合创始人赵明国,智源具身智能研究中心负责人、北京大学助理教授、银河通用创始人王鹤、傅利叶创始人兼CEO顾捷,乐聚机器人创始人冷晓琨,中科院自动化所研究员王鹏,UC Berkeley潘家怡,围绕具身智能的本体形态、数据、泛化能力、产业落地前景等议题分享了最新的思考与观察。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

此外,下午的空间智能和世界模型圆桌讨论由智源研究院副院长林咏华主持,清华大学机械工程系助理研究员陈睿,清华大学电子工程系副教授代季峰,星尘智能创始人兼CEO来杰,香港大学助理教授李弘扬 ,北京通用人工智能研究院研究科学家黄思远,分别就机器人的世界模型技术路线、关键技术要点以及面临的核心挑战等问题进行了不同视角的解读。

智源举办2024具身与模型专题峰会 产学研共促技术创新与应用

在闭幕致辞中,智源研究院理事长黄铁军指出,智能是环境的产物。人类智能来源于对环境的适应演化以及对世界的抽象。智能应该是大大小小各种形态的,不能变成一个完全统一的智能。具身智能的发展是必然趋势,无论是人形还是其他形态的机器人,未来需要庞大的产业群配套,促进具身智能的关键部件与材料,软件与硬件协同发展。

版权文章,未经授权禁止转载。详情见 转载须知 。


本文地址: https://www.gpxz.com/article/6782b35ffa62ff6841db.html
全局中部横幅
全局中部横幅
4399网页游戏

4399网页游戏是专注精品页游的一线游戏平台,为广大玩家提供弹弹堂、传奇霸主、九天传、凡人修真2、村长征战团、梦幻飞仙、神魔遮天等精品好玩的网页游戏

IKEWENNA

过去的十几年间,先后诞生了IKEWENNA和AMOURDETULLE两大美体内衣品牌,推出多款美体内衣,以及家居内衣睡衣与时尚配饰。满足不同功能需求,用专业严谨的态度打造专属东方女性的美体内衣。从重塑到精雕,从整体到局部,从美体内衣到时尚家居。用创新与坚持,以及锲而不舍的突破,聚焦每一个细枝末节,多品类发展。

山东三和玩具股份有限公司

山东三和玩具股份有限公司山东三和玩具股份有限公司主要生产填充毛绒玩具和电动玩具,拥有各种先进填充毛绒玩具生产设备600多台,现有员工620余人。

期刊投稿论文发表

期刊之家杂志与众多杂志社有合作关系,涉及到教育、经济、科技、医学、文学等期刊,本网推荐的期刊杂志全部是经新闻出版总署批准、在“中国学术期刊网”上可以查到的正规刊物,均同时具有CN刊号和ISSN刊号,发表程序正规,信息安全,有效保障作者的合法版权。

广州掇月信息科技有限公司

广州掇月信息科技有限公司(联系电话15102059282)是提供物联网和移动互联网专业智能产品和解决方案的国家级“高新技术企业”,公司目前主要产品包括电子学生证、4G电子学生证、校园电话机、视频校园电话机、校园视频电话机、校园插卡电话机、校园刷卡电话机等。有需要者欢迎联系我们

伸缩缝

多鑫变形缝公司是生产伸缩缝减震缝等产品的厂家,主要产品有楼面、屋面、地面、室内外墙面伸缩变形缝铝合金伸缩变形缝及伸缩变形缝盖板等产品,建筑物位移和沉降起到良好的保护和装饰作用,厂家直销价格实惠!

手机游戏

233小游戏下载网提供好玩的手机游戏下载,这里有热门海量精品手机游戏,新热好玩的安卓游戏/iphone游戏/苹果ios/应用免费下载,手游排行榜2023前十名推荐尽在233小游戏下载网.

新浪舆情通

新浪舆情通是一款基于互联网信息聚合、文本挖掘和智能检索等技术的数据智能软件。用于发现互联网中的舆情信息,并对信息进行自动分类、智能过滤、自动聚类、主题检测和统计分析,实现对热点话题、突发事件的智能识别和定向追踪,帮助政府、媒体和企业、事业单位及时掌握

开锁

即刻开上门开锁公司,提供开锁电话、换锁修锁、汽车开锁、防盗门开锁、安装指纹锁、保险开柜、配汽车钥匙等开锁服务!

小旺截图官网

小旺截图官网,小旺AI截图,是一款免费电脑截图软件,截图录屏全能神器!小旺截图,一款专为windows微软系统、macOS苹果系统打造的电脑截图软件,电脑录屏软件,轻巧、好用,功能强大!

山东万通液压股份有限公司

山东万通液压股份有限公司主导产品自卸车专用油缸及液压系统、机械装备用油缸、油气弹簧、工程机械油缸、液压元件等


全局底部横幅