WaiMen   发表于 2019-6-16 18:05:20 |栏目:

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180717mpcftec5c9p9lw9i

新智元原创

编辑:金磊、大明

【新智元导读】随着深度学习的大热,很多研究都致力于怎样从单张图片天生3D模子。但近期一项研究表明,险些所有基于深度神经网络的3D中重修工作,实际上并不是重修,而是图像分类。深度学习并不是万能的!

深度学习并不是万灵药。

近几年,随着深度学习的大热,很多研究攻克了怎样从单张图片天生3D模子。从某些方面似乎再次验证了深度学习的神奇——doing almost the impossible

但是,迩来一篇文章却对此提出了质疑:险些所有这些基于深度神经网络的3D重修的工作,实际上并不是举行重修,而是举行图像分类

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180722xtdrr2qvpv2htluv

arXiv地址:

在这项工作中,研究职员创建了两种差异的方法分别实行图像分类和检索。这些简朴的基线方法在定性和定量上都比开始进的方法产生的效果要更好。

正如伯克利马毅教授评价:

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180723p5gyei6korkkcmeb

险些所有这些基于深度神经网络的3D重修的工作(层出不穷令人眼花缭乱的State of the Art top conferences 论文),其实还比不上轻微认真一点的nearest neighbor baselines。没有任何工具或算法是万灵药。

至少在三维重修题目上,没有把多少关系条件严格用到位的算法,都是不科学的——根本谈不上可靠和准确。

并非3D重修,而只是图像分类?

基于对象(object-based)的单视图3D重修使命是指,在给定单个图像的情况下天生对象的3D模子。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180727g6saz8kv8orerm2e

如上图所示,推断一辆摩托车的3D布局需要一个复杂的过程,它联合了低条理的图像线索、有关部件布局排列的知识和高条理的语义信息。

研究职员将这种情况称为重修和辨认:

  • 重构意味着使用纹理、阴影和透视效果等线索对输入图像的3D布局举行推理。

  • 辨认相当于对输入图像举行分类,并从数据库中检索最符合的3D模子。

固然在别的文献中已经提出了各种体系布局和3D表示,但是用于单视图3D明确的现有方法都使用编码器——解码器布局,此中编码器将输入图像映射到埋伏表示,而解码器实行关于3D的非平常(nontrivial)推理,并输出空间的布局。

为相识决这一使命,整个网络既要包含高级信息,也要包含低级信息。

而在这项工作中,研究职员对现在开始进的编解码器方法的效果举行了分析,发现它们主要依靠辨认来管理单视图3D重修使命,同时仅体现有限的重修本领。

为了支持这一观点,研究职员计划了两个纯辨认基线:一个联合了3D外形聚类和图像分类,另一个实行基于图像的3D外形检索。

在此基础上,研究职员还证实了即使不需要明确地推断出物体的3D布局,当代卷积网络在单视图3D重修中的性能是可以逾越的。

在很多情况下,辨认基线的猜测不光在数量上更好,而且在视觉上看起来更有吸引力。

研究职员以为,卷积网络在单视图3D重修使命中是主流实行步伐的某些方面的效果,包罗数据集的构成和评估协议。它们答应网络找到一个快捷的管理方案,这恰好是图像辨认

纯粹的辨认方法,性能优于先进的神经网络

实行基于当代卷积网络,它可以从一张图像猜测出高分辨率的3D模子。

方法的分类是根据它们的输出表示对它们举行分类:体素网格(voxel grids)、网格(meshes)、点云和深度图。为此,研究职员选择了开始进的方法来覆盖主要的输出表示,大概在评估中已经清楚地体现出优于其他干系表示。

研究职员使用八叉树天生网络(Octree Generating Networks,OGN)作为直接在体素网格上猜测输出的代表性方法。

与早期使用这种输出表示的方法相比,OGN通过使用八叉树有效地表示所占用的空间,可以猜测更高分辨率的外形。

还评估了AtlasNet作为基于外貌的方法的代表性方法。AtlasNet猜测了一组参数曲面,并在操作这种输出表示的方法中构成了开始进的方法。它被证实优于直接天生点云作为输出的唯一方法,以及另一种基于八叉树的方法。

末了,研究职员评估了该范畴现在开始进的Matryoshka Networks。该网络使用由多个嵌套深度图构成的外形表示,,这些深度图以体积方式融合到单个输出对象中。

对于来自AtlasNet的基于IoU的外貌猜测评估,研究职员将它们投影到深度图,并进一步融合到体积表示。 对于基于外貌的评估指标,使用移动立方体算法从体积表示中提取网格。

研究职员实现了两个简朴的基线,仅从辨认的角度来处理题目。

第一种方法是联合图像分类器对练习外形举行聚类;第二个是实行数据库检索。

在聚类方面的基线中,使用K-means算法将练习外形聚类为K个子类别。

在检索基线方面,嵌入空间由练习集中所有3D外形的两两相似矩阵构造,通过多维标准将矩阵的每一行压缩为一个低维形貌符。

研究职员根据匀称IoU分数对所有方法举行标准比较。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180730c7ocix92xoo1r2sb

研究职员发现,固然开始进的方法有差异体系布局的支持,但在实行的时间却非常相似。

风趣的是,检索基线是一种纯粹的辨认方法,在均值和中位数IoU方面都优于所有其他方法。简朴的聚类基线具有竞争力,性能优于AtlasNet和OGN。

但研究职员进一步观察到,一个完善的检索方法(Oracle NN)的性能显着优于所有其他方法。值得留意的是,所有方法的效果差异都非常大(在35%到50%之间)。

这意味着仅依靠于匀称IoU的定量比较不能提供这种性能水平的全貌。 为了更清楚地相识这些方法的举动,研究职员举行了更详细的分析。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180732ulwo4akwzaohne42

每类mIoU比较。

总的来说,这些方法在差异的类之间体现出一致的相对性能。检索基线为大多数类天生最佳重构。所有类和方法的方差都很大。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180734wwz6smmsshwwo03f

mIoU与每个类的练习样本数量。

研究职员发现一个类的样本数量和这个类的mIoU分数之间没有干系性。所有方法的干系系数c均接近于零。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180737ceehhje10kef7hhj

定性的效果

聚类基线产生的外形质量与开始进的方法相当。 检索基线通过计划返回高保真外形,但细节大概不正确。 每个样本右下角的数字表示IoU。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180741d8lalfdy2yl9yal1

左:为所选类分配IoU。 基于解码器的方法和显式辨认基线的类内分布是雷同的。 Oracle NN的发行版在大多数类中都有所差异。 右图:成对Kolmogorov-Smirnov查验未能拒绝两个分布的无效假设的类数的热图。

研究中的一些题目

参照系的选择

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180742j3wg3d602d92wbgh

我们实行使用视角猜测网络对聚类基线方法举行扩展,该方法将重点回归摄像头的方位角和仰角等规范框架,效果失败了,由于规范框架对每个对象类都有差异的寄义,即视角网络需要使用类信息来管理使命。我们对检索基线方法举行了重新练习,将每个练习视图作为单独样原来处理,从而为每个单独的对象提供空间。

量度标准

匀称IoU通常在基准测试中被用作权衡单视图图像重修方法的主要量化指标。如果将其作为最优解的唯一权衡指标,就大概会出现题目,由于它在对象外形的质量值富足高时才华有效猜测。如果该值处于中低水平,表明两个对象的外形存在显着差异。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180744kc4pb0bbz64bcox8

如上图所示,将一个汽车模子与数据集中的差异外形的对象举行了比较,只有 IoU分数比较高(最右两张图)时才故意义,即使IoU=0.59,两个目标大概都是完全差异的物体,比较相似度失去了意义。

倒角间隔(Chamfer distance)

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180745vbuvo8dwu2e2l3pp

如上图所示,两者目标椅子与下方的椅子的下半部门完善匹配,但上半部门完全差异。但是根据得分,第二个目标要好于第一个。由此来看,倒角间隔这个量度会被空间多少布局明显干扰。为了可靠地反映真正的模子重修性能,好的量度应该具备对多少布局变革的高鲁棒性。

F-score

我们绘制了以观察者为中央的重修方式的F分数的差异间隔阈值d(左)。在 d =重修体积边长的2%的条件下,F分数绝对值与当前范围的 mIoU分数相同,这并不能有效反映模子的猜测质量。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180747mz55jtjzjjwb5hvw

因此,我们发起将间隔阈值设为重修模子体积边长的1%以下来观察F值。如上图(右)中所示,在阈值d = 1%时,F分数为0.5以上。只有一小部门模子的外形被准确构建出来,预设使命仍旧远未管理。我们的检索基线方法不再具有显着的上风,进一步表明使用纯粹的辨认方法很难明决这个题目。

深度学习不是万灵药!神经网络3D建模其实只是图像识别?  最新资讯 180747wuy8wu1woo1an51j

现有的基于CNN的方法在精度上体现良好,但丢失了目标的部门布局

在这项研究中,研究职员通过重修和辨认来推断单视图3D重修方法的范围。

工作展示了简朴的检索基线优于最新、开始进的方法。分析表明,现在开始进的单视图3D重修方法主要用于辨认,而不是重修。

研究职员确定了引起这种题目的一些因素,并提出了一些发起,包罗使用以视图为中央的坐标系和鲁棒且信息量大的评估度量(F-score)。

另一个关键题目是数据集组合,固然题目已经确定,但没有处理。研究职员正积极在以后的工作中纠正这一点。

回复
凝链下载站 - 下载导读:
1、不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件购买注册,得到更好的正版服务。本资源如有侵犯您的版权,请联系管理员删除本资源!
2、论坛的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,论坛均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,论坛不负任何责任。
5、注册会员通过任何手段和方法针对论坛进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。

回复 显示全部楼层 使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表