MIT等高校联合推出3000小时的第一视角视频数据集Ego4D Facebook和NUS (mit 学校)

文章编号:36076 资讯动态 2024-11-30 NUS研究团队 Facebook MIT Ego4D

Facebook和NUS、MIT等高校联合推出3000小时的视角视频数据集Ego4D

1. 左:同一场景在第一视角和第三视角下;右:第一视角视频采集设备

从第三视角看世界,和从第一视角和世界互动,有显著差异。比如说,看别人坐过山车和自己坐过山车,体验完全不同。
AI技术浪潮,为增强现实 (AR) 和智能机器人赋能,AI需要从现在的第三视角转换成第一视角的全新范式。这是因为在第一视角的世界中,常有实时的运动变化,手与物体的交互,多种感官的信息融合。

Facebook联合新加坡国立大学 (NUS) 、MIT等世界各地的13所大学组成了一个学术联盟,致力于开展一个长期项目——

NUS研究团队的Principal Investigator(主要负责人),助理教授Mike寿政说: “在过去十年里,我们见证了AI在理解图像方面的变革,这是建立在 ImageNet 等数据集所奠定的基础上的。类似的,我相信我们的 Ego4D 数据集,将为第一视角的视频研究打好基础,从而推动智能感知在 AR 和机器人方面的快速发展。”



目前最大的第一视角视频数据集
Facebook和NUS、MIT等高校联合推出3000小时的视角视频数据集Ego4D

2. Ego4D 是目前最大的第一视角的日常活动视频数据集

AI系统需要大量数据进行训练,现有的大规模视频数据集通常以第三视角为主;而现有的第一视角数据集在规模、多样性和复杂性上都很有限。因此,该学术联盟推出了 Ego4D 数据集:

大规模 :研究人员分发头戴式相机或者 AR眼镜给数据采集者,从而收集了累计3,000 小时的、日常活动中的第一视角视频;

:包含了人们的日常生活的数百种不同活动,记录了相机佩戴者在关注什么,用手和面前的物体做什么,以及他们是如何与其他人互动的;

多样性 73 个地点、9个国家,700 多名不同背景、种族、职业、年龄的数据采集者,囊括不同的文化和地理差异;

抽好的特征 :所有视频,均有预先抽好的 SlowFast特征,方便大家进行实验;

授权公开 2021 年 11 月公开,视频中的所有可见人脸和可听懂的语音均已获得参与者的授权。



新任务,新技术
Facebook和NUS、MIT等高校联合推出3000小时的视角视频数据集Ego4D

3. 通过采集的第一视角视频数据,Ego4D团队可以开发AI模型来解决新的任务

与数据收集同样重要的是,定义正确的任务,进行严格的人工标注,来引导新技术的研发。

Ego4D 学术联盟联合构建了五个全新的、具有挑战性的任务:

(1)情景记忆: 什么时候发生了什么? 3A, 告诉我钱包最近一次出现的位置。

(2)预测未来: 我接下来要做什么? 3B, 他即将跳起来抓住单杠。

(3)手与物体交互: 我在做什么以及如何做? 3C, 告诉我下一步的操作。

(4)+听觉: 多人场景下,谁在什么时候说了什么? 3D, 生成会议内容的总结。

(5)社交交互: 人与人如何交互? 3D, 我注视着他,而他正在对我说话。

“我们NUS研究团队主要为其中两个关键任务开发模型:一是,利用声音和视觉线索帮助AI识别“谁在什么时候说了什么 ;二是,开发具有社交智能的 AI,检测当下谁在对谁说话,谁在关注谁。” 同样来自NUS团队的Co-PI李海洲教授如是说。

有第一视角感知能力的 AI,将赋能AR眼镜、智能机器人等等同样是第一视角的设备,将在我们的日常生活和工作中发挥更大作用。想象一下:在对着新菜谱做菜时,不必再来来回回地看菜谱,你的AR 眼镜就可以实时地同步指导你执行每个步骤;对于有阿尔茨海默症等健康问题的人,AR眼镜可以帮助他们回忆钱包放在哪里了。

Ego4D数据集只是起点,研发第一视角AI技术,进而赋能智能机器人、AR眼镜,将在不远的将来,改变我们的生活、工作、娱乐方式,带给我们前所未有的、虚拟与现实交融的体验。

更多技术详情请见Arxiv论文:
Ego4D 计划的学术联盟包括以下主要负责人:CV Jawahar (印度国际信息科技研究院,海得拉巴), David Crandall (印第安纳大学), Dima Damen (布里斯托大学), Giovanni Maria Farinella (卡塔尼亚大学), Kristen Grauman (Facebook AI), Bernard Ghanem (阿卜杜拉国王科技大学), Jitendra Malik (Facebook AI), Kris Kitani (卡内基梅隆大学和卡内基梅隆大学非洲校区), Aude Oliva (麻省理工学院), Hyun Soo Park (明尼苏达大学), Jim Rehg (佐治亚理工学院), Yoichi Sato (东京大学), Jianbo Shi (宾夕法尼亚大学), Antonio Torralba (麻省理工学院), Mike Zheng Shou (新加坡国立大学), and Pablo Arbelaez (哥伦比亚安第斯大学)。

Facebook和NUS、MIT等高校联合推出3000小时的视角视频数据集Ego4D

版权文章,未经授权禁止转载。详情见 转载须知 。

Facebook和NUS、MIT等高校联合推出3000小时的视角视频数据集Ego4D


本文地址: https://www.gpxz.com/article/8848c0b57b0b7c6d76b0.html
全局中部横幅
全局中部横幅
腾讯交互翻译TranSmart

腾讯交互翻译TranSmart是由腾讯AILab发布的一款AI辅助翻译产品,可满足用户快速翻译的需求,用AI辅助人工翻译提高效率和质量。TranSmart采用了团队自研的人机交互式机器翻译技术,融合神经网络机器翻译、统计机器翻译、输入法、语义理解、数据挖掘等多项前沿技术,配合亿级双语平行数据,是一款人工智能辅助翻译互联网落地产品,可为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。

网隆招聘网→首页

网隆招聘网-求职招聘门户,网络招聘vip全国连锁.为企业找英才,为您找名企,求职路上好帮手.

莆田便利店加盟

莆田市文献便民服务有限公司:致力于便利店的连锁经营与服务创新,包括便利店投 资经营管理、连锁加盟服务、网上商城、社区家政服务和商家联盟等

分享最新章节试读

七库阅文网频道集合了海量的热门小说等优质内容,是最新小说分享的好网站。

对辊破碎机厂家

华浒重工专注于对辊破碎机、对辊式破碎机、双辊破碎机、四辊破碎机、双齿辊破碎机、四齿辊破碎机、锤式破碎机、反击式破碎机、圆锥破碎机以及移动式破碎站等主要产品的生产。此外,我们还提供各种砂石生产线、带式污泥压滤机、布袋式除尘器、筛分设备、给料机、布料器、皮带机、除铁器和电控柜等辅助配套设备。欢迎来电咨询定购电话:15753694888

上海菲姿服饰有限公司

菲姿时尚集团创立于1992年,是集研发、生产、品牌管理、服务于一体的大型现代化品牌企业。30年来集团始终坚持国际化的品牌经营理念,现已发展成为一家多品牌、集团化运作的知名时尚品牌企业。

首页

朴朴超市官方网站,朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台。

滁州网站建设

滁州醉城网络科技有限公司专注于企业网站建设、营销型网站制作、中小型门户网站、功能型网站技术的研究和开发,以及搜索引擎优化排名、电子商务解决方案、社区网站策划运营、微信产品营销、域名注册、虚拟主机等多方面的互联网技术服务。 经过多年的不懈努力,滁州醉城网络科技有限公司积累了单位、企业、个体等不行同业、不同规模、不同应用的互联网营销解决方案。我们不断在技术上和服务上进行创新和改进,打造业内颇有影响力

好百年婚礼策划中心

深圳市好百年文化产业管理有限公司,2005年成立至今已组织近万场婚礼定制,用细心与贴心圆满毎一个婚礼梦;以高性价比、高标准和高品质还原每场创意设计,将一站式婚礼服务送到新人身旁,让婚礼变得更加简单幸福!

佛山卷闸厂

佛山卷闸厂,高明卷闸厂,南海卷闸厂,顺德铝合金卷闸门厂家,顺德水晶卷闸门厂家,顺德不锈钢卷闸门厂家,顺德快速门厂家,顺德车库门厂家-佛山市顺德区乐赞门控设备有限公司

山东科举药业有限公司

山东科举药业有限公司业务遍及全国,截至目前,拥有博士多名,研究生数十名,已完成3个大项14项国家专利的申报,产品订制OEM服务涵盖软胶囊、硬胶囊、片剂、粉剂等多个剂型。致力于为客户提供包括产品OEM、批文落户、维生素食健备、配方二次开发等在内的全面、专业的服务方案。

义达跨境YDH

义达跨境<YDH>国际专线小包、空海派服务、国际干线运输、海外仓服务、商业快件服务、进出口报关等综合性物流服务

全局底部横幅