用一张单色图像生成高质量3D几何结构 (怎么用单色)

文章编号:43891 资讯动态 2024-12-09 体素 3D几何结构 层进表面预测

雷锋网AI科技评论按:用图像来重建3D数字几何结构是计算机视觉领域一个非常核心的问题。这种技术在许多领域都有广泛的应用,例如电影制作、视频游戏的内容生成、虚拟现实增强现实、3D打印等等。伯克利人工智能研究中心的Christian Häne等人近日发表一篇论文《 Hierarchical Surface Prediction for 3D Object Reconstruction 》,论文中他们讨论如何从单张色彩图像重建出高质量的3D几何结构,就像下面这幅图所显示的。雷锋网编译如下。

用一张单色图像生成高质量3D几何结构

对于我们人类来说,即使只看到一张图像,我们也能毫不费力地对物体和场景的形状进行理解。请注意,我们眼睛的双目效果允许我们感知深度,我们不需要了解物体3D几何结构。所以即使我们只是看到一个实体的照片,我们也能对它的形状有很好的感知。不仅如此,我们还能理解物体看不见的部分(例如背面),这对抓取物体这样的动作来说是非常重要的。于是问题就来了,我们人类是如何从单张图像推出物体的几何结构的呢?在人工智能这个方面,我们怎么才能教会机器掌握这个能力呢?

一、形状空间

由任意的输入图像来重建其3D几何结构,基本的原理就是: 物体形状不是任意的,因此有些形状是可能的,而有些是不可能的。 一般来说,物体的表面往往是光滑的,尤其是人造物体,常常就是由几个分段的平面构成。对于预测物体,我们可以使用同样的规则。例如,飞机通常具有机身,两侧附接两个主翼,后侧会安装有垂直稳定翼。人类能通过眼睛观察世界,并用手来与世界进行互动,然后获得这样的知识。在计算机视觉中,“形状不是任意的”这个事实允许我们通过收集大量的示例形状,来将一个对象类或者多个对象类的所有可能形状描述成低维形状空间。 使用CNN来预测体素(Voxel Prediction)

最近,等人发表了他们关于3D重建的论文,在他们的工作中他们的“输出”是一个3D体积空间,这个3D体积被细分成体积元素(称为体素,voxel),每个体素会有一个分配(被占据或自由空间),而物体形状的预测则表示为由体素组成的3D占据体积。在他们的模型中“输入”通常为一个描述物体的单色图像,然后他们用卷积网络神经(CNN)的上卷积解码器架构来预测这个占据体积。该网络由端对端进行训练,并且由已知的ground truth占据体积(通过合成CAD模型数据集获得)来进行监督学习。通过这种3D表示(体素)以及CNN,这种模型就可以学习,且能够适应各种对象类。

用一张单色图像生成高质量3D几何结构

二、层进表面预测

上述方法(使用CNN预测占据体积)有一个很大的缺点,由于其输出空间是三维的,于是相对增加的分辨率就会以立方的形式增长。这个问题使得这种方法难以预测高质量的几何形状,且限于比较粗糙的分辨率体素网格,例如上面32^3的结果。在Christian Häne等人的工作中,他们认为这是一个不必要的限制,因为表面实际上只是二维的。于是他们通过层进的方式利用表面的二维性质来预测精细分辨率体素,此时只需要对表面进行高分辨率的预测即可。其基本思想和八叉树表示的思想关系很近,八叉树表示通常是用于多视图立体声和深度图融合等领域来表示高分辨率的几何结构。

方法

在这个3D预测模型(称为层进表面预测(Hierarchical Surface Prediction, HSP))中,首先我们输入一张单色图像,用卷积编码器将其编码为低维表示。然后,将该低维表示解码成3D占用体积。其主要思想是通过预测低分辨率体素开始解码。关键之处在于,不同于标准的方法将体素分为占据/自由空间,HSP会将体素分为三类: 自由空间 占据空间 边界 。使用这种方法,“输出”的分辨率可以很低,只要保证在那些有迹象表明它包含“边界”的部分有较高的分辨率即可。通过迭代,我们可以层进地预测出高分辨率的体素网格。模型更多的细节可以参看论文,这里就不再详解。

用一张单色图像生成高质量3D几何结构

实验

模型的实验主要利用了合成的ShapeNet数据集进行训练。作者将结果与两个基线模型——硬低分辨率模型(low resolution hard,LR hard)和软低分辨率模型(low resolution soft,LR soft))——进行了对比。这两个基线模型都是以32^3粗分辨率进行预测,只是训练数据的生成方式不同。LR hard对体素使用双分法进行分配,即如果在相应的高分辨率体素中至少一个被占用,则所有体素将被标记为被占用。LR soft则使用分数法进行分配,每一个体素将反映出在相关的高分辨率体素中占有的百分比。HSP方法则以256^3的分辨率进行预测。下面的结果显示,HSP方法与基线方法相比,在表面质量和高分辨率预测的完整性方面表现更好。

用一张单色图像生成高质量3D几何结构

用一张单色图像生成高质量3D几何结构

雷锋网注——

本文参考了: High Quality 3D Object Reconstruction from a Single Color Image

相关论文连接:

1、 Hierarchical Surface Prediction for 3D Object Reconstruction (Christian Häne等)

2、 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction (Choy等)

3、 Learning a Predictable and Generative Vector Representation for Objects (Girdhar等)

4、 ShapeNet: An Information-Rich 3D Model Repository (关于ShapeNet数据集的论文)

原创文章,未经授权禁止转载。详情见 转载须知 。

用一张单色图像生成高质量3D几何结构


本文地址: https://www.gpxz.com/article/d46b93c853a74778602f.html
全局中部横幅
全局中部横幅
蓝湖

蓝湖是一款产品文档和设计图的共享平台,帮助互联网团队更好地管理文档和设计图。蓝湖可以在线展示Axure,自动生成设计图标注,与团队共享设计图,展示页面之间的跳转关系。蓝湖支持从Sketch、Ps一键共享、在线讨论,而且蓝湖只需简单几步就能将设计图变成一个可以点击的演示原型,蓝湖还支持分享给同事,让他也可以在手机中查看设计效果。蓝湖已经成为新一代产品设计的工作方式。

唱吧

唱吧官网。唱吧app是时尚的手机KTV,数亿用户K歌聚会交友,一键修音美化声音。唱吧K歌宝是自带音箱的麦克风,颜值高声音好,明星都在用,在家K歌的神器。

中关村在线

中关村在线是大中华区商业价值受到认可和信赖的IT专业门户网站,提供手机,电脑等科技数码的资讯和行情报价.

观察者网

观察者网,致力于荟萃中外思想者精华,鼓励青年学人探索,建中西文化交流平台,为崛起中的精英提供决策参考。

水泥试验仪器

我公司坐落于建材仪器之乡-沧州献县,公司产销公路建筑材料检测仪器设备及实验耗材,为各大质检站、商砼搅拌站提供服务,得到客户认可。有专业团队为客户解决仪器使用培训售后,服务电话0317-7777829。

PaperPass

PaperPass权威中文论文查重系统,提供职称、课题、高校毕业论文检测服务,免费论文降重,快捷、精准、真实标红且提供详细相似来源及修改意见,并推出免费论文查重检测活动。动态指纹技术保障、权威可信赖的论文检测系统现已为超千万人提供论文查重服务。

深圳宝深文化传媒有限公司

深圳宝深传媒是一家明星代言、演出策划、制作、娱乐、发行于一体的文娱产业专业运营集团公司主要业务是针对少年儿童演艺人才挖掘(选拔活动)、表演技能提升(如少儿街舞,少儿T台,少儿主持,少儿播音主持,少儿音乐,少儿表演艺术等培训、名师指点)、童星包装策划推广、儿童演艺人才推荐(剧组、电视栏目、演出活动)、童星经纪营销为一体的综合网站。

商标注册【免费商标注册查询】商标注册流程及费用【商标申请代理公司】

如何注册商标?首选商标局备案正规商标注册代理公司。10年商标注册代办经验,提供注册商标流程及费用参考信息,免费商标查询【快速查询商标名称能否注册】

电子应用网

电子应用网是面向电子应用和电子技术的行业网,为电子行业提供权威的解决方案,应用文章,行业咨讯,最新电子产品发布和交流的资讯平台

陕西JDG线管厂家

陕西长圣电气成套设备有限公司主营陕西JDG线管厂家,陕西KBG线管生产,陕西电缆桥架批发,陕西抗震支架施工,我司集制造,加工,生产,销售,安装于一体的现代化企业,采用高品质原料制造高质量,高标准,多品种的电缆桥架,欢迎来电咨询长圣电气厂家.

成都欣钰舶科技有限公司

成都欣钰舶科技有限公司是一家拥有15年汽车钣喷中心建设经验,从事汽车钣喷中心建设咨询,全面规划,运营,效率提升培训,以及设备、辅料批发配套的专业公司。主营广州YOKISTAR钰铂全系列产品,包括汽车维修钣喷流水线、喷烤漆房、UV环保处理装置,打磨房、大型喷烤漆房、喷漆房、喷漆柜、调漆房、水溶性装置、烤灯、工业涂装设备、无尘干磨机、中央集尘系统、喷漆辅料、遮蔽纸、遮蔽膜、意大利进口油水分离器、喷枪、压缩空气接头、不锈钢工业压缩空气管路。公司位于中国成都市武侯区。本着“专业服务,诚信至上”的原则,与多家企业建


全局底部横幅