我们终于把它讲清楚 谈了这么久的Project Tango (我们终于把它忘记了)

雷锋网按 :本文作者胡金晖,UCVR联合创始人,CTO,英国King's CollegeLondon电子工程系博士,专攻计算机视觉、图像处理。

ProjectTango发布初期曾经一度被称为黑科技,但现如今已慢慢走进我们的生活。如果说Kinect是3D感应技术的开创者,那么ProjectTango就算是3D感应技术领路人了。 ProjectTango将光学传感器、惯性传感器与计算机视觉技术进行了完美的结合

谈了这么久的Project Tango?我们终于把它讲清楚

ProjectTango诞生记

说到ProjectTango就要说起ATAP(all Things Are Possible,ATAP是google收购Motorola(后来又卖给了联想)后保留的一个重要部门),更要说起JohnnyLee。

如果你打开上面Project Tango的介绍视频,第一眼看到的一个面目和蔼的胖子,就是那个在2007年底把Wii玩出花的大神。07年12月John神在YouTube上传了一系列视频,记录了用Wii遥控手柄追踪人的手指,通过改装后的Wii遥控手柄和投影仪制造出多点触摸电子白板,还有用Wii遥控手柄追踪人的头部位置,与此同时,游戏画面也为了适应观众的视角而发生改变。从这几个实验中,我们可以看到当下LeapMotion、Oculus Rift等下一代人机交互方式的影子。

之后他加入了微软的Project Natal(该项目的成果是风靡全球的Kinect),后来跳槽到GoogleX,再之后加入MotorolaATAP(All Things Are Possible),最终带领团队在2014年6月5日启动ProjectTango。

ProjectTango三大核心技术

众所周知ProjectTango包含三块技术:运动追踪(MotionTracking),深度感知(DepthPerception)和区域学习(AreaLearning)。我们可以通过John神的职业道路,由简入繁来看看Project Tango里面的黑科技是如何一步一步实现的。

首先就是John神的成名之作:Wii实现头动追踪。他将Wii捕捉系统翻了个个,将含有IR相机的Wii手柄作为接收器,并把Wii的“感应棒”作为一个含有两个红外点光源的发射器,如下图:

谈了这么久的Project Tango?我们终于把它讲清楚

这就形成了一个典型的单目视觉系统。 接收器拍摄到的图像是三维空间的场景在二维空间的投影,要识别场景的“深度”信息,就是一种逆向求解的过程。单目视觉系统一般采用对应点标定法,即通过不同坐标系中对应点的对应坐标求解坐标系的转换关系,说起来很绕口,但是简单解释就是好比你一只眼睛看一根木棍(我们假定木棍不会在水平面旋转),虽然没有了双目的立体视觉,但是通过观看木棍的长度和位置变化你就可以判断木棍的大概位置。同理John神的Demo中接收器拍摄到的图像大概是这个样子。

谈了这么久的Project Tango?我们终于把它讲清楚

可能这个例子里面的原理非常之简单,但要知道他提出的这个VRDisplay概念要比Oculus早了近5年。

运动追踪

Project Tango的第一个核心技术“运动追踪”的三维动态捕捉就是利用了上面提到的单目视觉技术的升级版Feature Tracking(Google称为特征捕捉) 。特征捕捉如何理解呢? 再回到John神的例子里,我们不再固定接收器的位置了,反而是拿着接收器(这里我们不再叫它接收器了,叫采集设备或相机)移动;而对面只有两个光点的发射器也变成一个一个的光点贴在John神家里屋子的各个角落。

当我们移动相机时不断地一帧一帧进行拍摄,因为拍摄到的光点的相对位置在不断变化(这里“变化”是指拍摄到的两帧之间同一个光点的相对位置变化),通过计算我们可以得到相机的移动距离。 简单来说Tango设备在不断循环的一个过程就是:拍摄——识别特征点(个人估计是SIFT点)——匹配特征点——筛去错误匹配——坐标换算 。当然ProjectTango的运动追踪不仅如此,他还能通过一个内置的6轴惯性传感器(加速度计和陀螺仪)来捕捉相机的加速度和运动方向。

当融合了以上两类传感器的数据之后ProjectTango就“完美”(其实还有瑕疵)实现了三维运动追踪。

为什么说还有瑕疵的?因为运动追踪只是单纯得到了相机移动的轨迹,然而对于相机所处的场景是零认知。所以一旦设备被关掉,它之前的运动轨迹就会被“忘掉”。最大的问题还是运动追踪中所累积的误差,或者叫漂移,在长距离使用后真实位置会和运算位置有很大差异。

为解决这个问题,John神团队为Tango设备设定了一种学习模式。这应该是他在Google X里面无人驾驶汽车研究成果的冰山一角。这种学习模式理解起来就简单很多了,为了让Tango设备具有一定记忆,而不再像一个被蒙着眼睛的人一样需要靠数自己走了多少步来计算距离,Project Tango可以让用户预先录入某个场景(这里要特别提醒的是,录入的数据不光包括了运动追踪里面所识别的特征点,还包含了场景本身),当用户重回这个场景的时候Tango设备会自动用录入的数据来纠正运动追踪的数据,这个纠正的过程中录入场景里的那些特征点会被当作观测点,一旦发现与当下特征点匹配的观测点,系统便会修正当下的追踪数据。 这就是Project Tango的第二大技术核心——区域学习

如果说把 深度感知 作为Project Tango的第三大技术核心,我觉得有点虚,毕竟Google也是采用的第三方的深度传感器。不过对此Google并没有掖着藏着,而是很大方的表明Tango设备可以选择任意一种现今流行的深度感知技术。而对这项技术的顺利应用多半也要归功于John神在Project Natal的经历了。Kinect一代的推出震动了业界,震动了学术界,同时也把结构光(Structured Light)的概念推广了出去。那么他到底是怎么实现深度检测的呢?检测到的“深度”又是什么概念呢?

结构光顾名思义是有特殊结构(模式)的光,比如离散光斑,条纹光,编码结构光,等等。他们被投射到待检测物体或平面上,看上去就好像标尺一样。根据用处不同,投影出来的结构光也可以分为不可见的红外光斑,黑白条纹可见光,单束线性激光,等等。比如Kinect投射出来的就是红外光斑,设想你玩游戏的时候要是一片黑白条纹光打到你身上,这画面感岂不是很怪。

谈了这么久的Project Tango?我们终于把它讲清楚

谈了这么久的Project Tango?我们终于把它讲清楚

人们发现把这些光投到不同深度的平面上光的纹路会发生变化,那么如果能采集到这些纹理变化,并且能精准的计算这些变化岂不是可以算出不同的深度?

回归正题,Kinect的离散光斑是如何实现深度检测的呢,我们知道如果拿一个手电照射墙壁,站近或站远,墙上的光斑是不同大小的,从不同角度照射墙,光斑也会呈现不同的椭圆。这就是基本原理了。但如何使一个红外光源按照不同角度射出?并且还要变成一堆离散的光斑?

这就要拿出它的发明者以色列PrimeSense公司的专利图了,他们非常聪明地在红外发射器前面加了一个特殊设计的diffuser(光柵、扩散片)可以使红外光线能从不同角度射出。另一个摄像头再去拍摄这些光斑然后进行计算从而得出每一个光斑所在的深度。每种结构光的扫描精度,所对应的算法,以及应用场景都有所不同。例如用于电子产业元器件锡膏检查(SPI/ AOI)一般就是可见的条纹光。另外几种结构光就不多做介绍了,总之只需要知道他们对深度感知的精准度会远远高于Kinect这种离散光斑类型的结构光(可以达到微米级),并且算法也有很大出入。

谈了这么久的Project Tango?我们终于把它讲清楚

除了结构光Project Tango还提到了TOF(Timeof Flight飞翔的时间?)一个激光发射器,一个接收器,一个运算光程的芯片组成。通过计算不同的光程来获取深度信息,它也是一种深度传感器。

这些深度传感器输出称之为 “点云” 的数据,包含了所有被采集到深度的点的三维信息。

谈了这么久的Project Tango?我们终于把它讲清楚

但是这里还隐藏了一个技术难点,因为Tango设备是在一边移动一边采集的,如何把上一帧采集的“点云”信息和当下帧采集的“点云”进行匹配,并且显示在同一世界坐标中就是难点所在。ProjectTango巧妙的结合运动追踪的轨迹数据达到了对“点云”的实时拼接。要知道“点云”的数量一般在几百或者上千。算法已经不易,运算量更是大的离谱,而Project Tango还把它做进了移动设备里。

结论

当这三大技术汇聚,Project Tango为移动平台带来了一种全新的空间感知技术,它可以让移动设备像人眼一样感知你所在的房间,找到行走的路,并且感知到哪里是墙,哪里是地,以及所有你身边的物体。

谈了这么久的Project Tango?我们终于把它讲清楚

其实这段很酷炫的话只有一个关键词,那就是“移动平台”。为什么?此时先拿出一个上文都没有提过的词语SLAM(Simultaneous Localization And Mapping,同步定位与地图构建)。它是机器人领域里面最重要的一个概念,没有之一。

就是希望机器人能够在某个环境中认识这个环境,找到自己的位置,并且规划出合理的道路。然而自1986年这个概念被提出以来,运算复杂度就一直是它的一个有待解决的问题。 可能大家也发现了,Tango设备就是一种SLAM设备,并且Google把它实现在了移动设备端 。John神和他的团队靠的不是魔法,而是对于光学传感器和惯性传感器与计算机视觉技术的巧妙结合。利用光学传感器来校正惯性传感器的误差累计或者说“漂移”问题,利用惯性传感器的小尺寸,低成本,以及实时信息输出来降低光学传感器的运算量,再配合上成熟的深度感应器(其实也是光学感应器的一类)从而实现了这个人们眼中的黑科技。

Project Tango的价值并不是把某个技术做到了登峰造极,而是将多种技术完美融合在一起,做到了1+1+1大于3的功效。并且把这些技术融合在了我们每天手边拿着的设备上。在AR,VR,MR盛行的今天,Project Tango的场景扫描和运动追踪功能正是现在AR,VR,MR设备最缺失的几种输入信息方式。再加上Google最近发布的Daydream VR平台和Google移动操作系统的最新版本Android N,可见Google在移动VR上的布局是多么宏大。不过,此时看来Project Tango还处在“Tech Demo”阶段,究竟能给AR,VR带来多大的推动力,我们拭目以待。

谈了这么久的Project Tango?我们终于把它讲清楚

特约稿件,未经授权禁止转载。详情见 转载须知 。

谈了这么久的Project Tango?我们终于把它讲清楚


本文地址: https://www.gpxz.com/article/4392fda0e48ed268e91f.html
全局中部横幅
全局中部横幅
佳木斯建成建筑有限公司

佳木斯建成建筑有限公司佳木斯建成建筑有限公司具有国家建筑工程施工总承包二级、建筑装修装饰工程专业承包二级、钢结构工程专业承包二级,水利水电工程施工总承包三级、市政公用工程施工总承包三级、施工劳务、环保工程专业承包三级、机电工程施工总承包三级等建筑业企业资质

汇通财经App

汇通财经App是FX678汇通财经官方的手机App,主要提供全球24小时的的财经经济资讯新闻,宏观的经济报道,专业外汇黄金原油分析评论。

北京工博会

北京工博会|2026亚太国际机械制造工业博览会将于2026年05月14日-16日在北京.中国国际展览中心召开。预计展览面积6万平,参展商1000家,专业观众120000人次,以北方工业制造产业集群为基础,着力打造华北工业展会的靓丽品牌,展会辐射全国及亚太地区专业买家,让展商更能有效开拓中国及海外国际市场,尤其展会得到了天津、山东、河北、沈阳的等协会的认可,制造装备领域极具规模且涉及品类广泛的专业博览会。AME率先针对各工业企业用户的需求,打造了一场技术交流和应用为重点的展会,积极为参展商及专业观众发掘更多商机。

ToDesk远程桌面软件

ToDesk远程控制软件是一款稳定流畅的远程控制电脑手机连接软件,可远程桌面办公,远程协助运维.采用端对端加密,让每一次远程访问都安全可靠。

Iphone软件下载

Iphone软件下载,苹果APP软件,android安卓软件下载,万年历,黄历,经络养生,高清经络图,铃声下载,蓝鹤信息提供。

中云盈科(西安)信息技术有限公司

中云盈科(西安)信息技术有限公司,一家专注于网络信息安全技术服务及数据库技术服务的技术服务提供商!

ETAGEAR

ETAGEAR是一款专业的齿轮设计软件。它能计算平行轴圆柱齿轮、NGW行星轮系、齿轮齿条、蜗杆、蜗杆配斜齿轮、蜗杆蜗轮、直齿锥齿轮、斜齿锥齿轮、格里森弧齿锥齿轮、等距螺旋锥齿轮、渐开线花键和一齿差摆线针轮。在常用工具里面可以实现变位系数与公法线和跨棒距的相互换算。自带的3D模块能方便的进行齿轮3D造型和动画仿真,支持导出STEP和DXF文件。锥齿轮3D模块还支持修形参数。

模匠网,3D模型下载,免费模型下载,国外模型下载

模匠网是一个为CG艺术家免费提供3D模型下载、贴图下载、教程下载、CG软件下载、的网站

天气预报app

天气预报app合集中包含了大量的天气预报软件,并且每种都可以为用户带来精准的天气资讯,同时每种用户可以随时随地进行使用了解未来多天的天气情况,此外还可以随意的切换城市进行查看。在这里用户可以获得各种需要的天气预报资源。

全局底部横幅