斯坦福等机构提出ScanComplete，可实现3D扫描的大规模「场景完成」和「语义分割」

xiaoxiao2021-02-28 33

原文来源：arxiv

作者：Angela Dai、Daniel Ritchie、Martin Bokeloh、Scott Reed、Jurgen Sturm、Matthias Nießner

「雷克世界」编译：嗯~阿童木呀、KABUDA

在这里，我们向大家介绍一下ScanComplete，它是一种全新的数据驱动方法，用于将场景的不完整3D扫描作为输入，然后预测一个完整的3D模型以及每个体素语义标签。我们方法的主要贡献在于，它能够处理具有不同空间范围的大场景，并且随着场景大小的增加，所管理的数据大小也呈立方级增长。为此，我们设计了完全卷积生成式3D CNN模型，其过滤内核相对于整体场景大小来说具有不变性。该模型可以在场景子卷（scene subvolumes）上进行训练，但是在测试期间内能够部署在任意大的场景中。此外，我们提出了一个粗到精（coarse-to-fine）的推理策略，以能够产生高分辨率的输出，同时还能够利用大的输入上下文大小。在一系列广泛的实验中，我们仔细评估了不同的模型设计选择，考虑了完成和语义推理的确定性和概率性模型。我们的研究结果表明，我们不仅在处理环境的大小和处理效率方面优于其他方法，而且在完成质量和语义分割性能方面也有十分显著的优势。

室内环境的3D扫描受传感器遮挡的影响，使得3D重构具有高度不完整的3D几何形状（左）。我们提出了一种基于完全卷积神经网络的新型数据驱动方法，该方法将不完整的符号距离函数（SDF）转换为完全的网络，以达到前所未有的空间范围（中）。除了场景完成之外，我们的方法还会为之前缺少几何形状的情况下推理语义类标签（右图）。我们的方法在完成和语义标注精确度方面都要优于现有方法。

随着微软Kinect、英特尔RealSense和谷歌Tango等商用RGB-D传感器的广泛应用，室内空间的3D重构已经取得了巨大的成功。3D重构可以帮助创建图形应用程序的内容，虚拟和增强现实应用程序依靠于从周围环境获取高质量的3D模型。虽然在追踪大空间扫描的精确度和高效数据结构方面已经取得了重大进展，但所得到的重构3D模型在质量方面仍然有不尽人意的地方。

在质量方面，一个基本的局限性是，一般来说，对于一个给定的场景，我们只能获得其局部和不完全重构，因为扫描会遭受遮挡和距离传感器的物理限制。在实践中，即使经过人类专家的仔细扫描，在重构过程中扫描一个没有孔的房间也几乎是不可能的。长期以来，孔在审美上都是不怎么令人愉悦的，并且可能导致后期处理（诸如3D打印或场景编辑）过程中的严重问题，因为我们不确定扫描的某些区域是代表自由空间还是占用空间。而诸如拉普拉斯孔填充（Laplacian hole filling、或泊松曲面重构（Poisson Surface reconstruction）这样的传统的方法可以填充小孔。然而，完成高水平的场景几何形状，比如缺少墙壁或椅子腿，则更加具有挑战性。

我们的方法概述：我们提出了一个层级粗到精的方法，其中每个级别都采用局部3D扫描作为输入，并且使用我们的自回归3D CNN架构中，预测完成的扫描以及在相应级别的体素分辨率下预测每个体素语义标签。下一个层次结构将先前层次（完成和语义）的输出作为输入，然后可以细化结果。这个过程允许在一个较高的局部体素分辨率的情况下利用大的空间上下文。在最终的结果中，我们看到全局完成，以及局部表面细节和高分辨率语义标签。

解决这个问题的一个很有前景的研究方向是使用机器学习。近期，用于3D完成，以及涉及单个目标或深度框架的其他生成任务的深度学习方法显示出了很好的效果。然而，3D生成式建模和结构化输出预测仍然具有挑战性。当用体积网格表示时，数据的大小会伴随空间大小的增加呈立方级增长，这严重限制了分辨率。室内场景尤其具有挑战性，因为它们不仅大，而且形状不规则，并且还具有不同的空间范围。

在本文中，我们提出了一种新方法—ScanComplete，它可以在大的3D环境下操作，而不受空间范围的限制。我们利用完全卷积神经网络，可以在较小的子卷上进行训练，但在测试时应当用于任意大小的环境场景。这种功能可以高效地应用于处理大规模室内场景的3D扫描：我们展示了高达1480×1230×64像素（≈70×60×3m）的例子。我们关注的重点为场景完成和语义推理的任务：对于给定的部分输入扫描，我们推理缺失的几何形状，并预测基于每个体素的语义标签。为了获得高质量的输出，模型必须使用足够高的分辨率来预测精细的尺度细节。然而，它还必须使用足够大的上下文来识别大型结构，以保证整体的一致性。为了协调这些相互矛盾的问题，我们提出了一个从粗到精（coarse-to-fine）的策略，该模型预测了一个多分辨率的输出层次结构。第一层次级别在分辨率低但空间大的环境中预测场景几何形状和语义。以下层级使用的空间环境更小，但分辨率更高，并且每一层级都将前一层级的输出作为输入以充分利用全局上下文。

在我们的评估中，我们在一个前所未有的空间内展示了场景完成和语义标注。此外，我们证实可以在合成数据上训练我们的模型，并将其转换为从商品扫描设备中获取的真正的RGB-D扫描。我们的结果优于现有的合成方法，并获得了具有更高准精确度的语义体素标签。

总体而言，我们的贡献有以下几点：

•用于处理具有任意空间范围的3D场景的3D完全卷积完成网络（3D fully-convolutional completion networks）。

•由粗到精（coarse-to-fine）的完成策略，既捕捉局部细节，又捕捉全局结构。

•场景完成和语义标注，二者都以显著的优势强于现有方法。

在本文中，我们提出了ScanComplete，这是一种全新的数据驱动方法，它可以输入部分3D扫描，同时为整个场景，预测完整的几何形状和语义体素标签。其关键思想是使用一个完全卷积的网络来解耦训练和测试分辨率，从而具有无限空间范围的可变大小的测试场景。另外，我们使用了一个粗到精（coarse-to-fine）预测策略和一个体积自回归网络（volumetric autoregressive network），这个网络利用了大的空间上下文，同时预测了局部的细节。因此，我们实现了前所未有的场景完成结果，并且体积语义分割的精确度明显高于以往的水平。

SUNCG上的语义体素标注结果; 从左至右：输入、SSCNet、ScanNet、我们的模型、地面实况。

来自Scannet对真实世界的扫描合成结果。尽管我们的模型只在合成数据上进行了训练，但它也能够完成许多真实数据的缺失区域。

我们的研究只是从部分输入中获取高质量3D扫描的一个起点，这是RGB-D重构的一个典型议题。今后研究的一个重要方向是进一步提高输出的分辨率。目前，我们最终的输出分辨率约5cm3的体素，这还不够，理想情况下，我们会使用更高的分辨率来处理精细的物体，例如杯子。此外，我们相信，通过正确的联合优化策略，跨层级端到端训练的效果将得到进一步提高。尽管如此，我们仍相信我们已经为完成整个场景设定了一个重要的基准线。我们希望，社会各界都能够进一步参与到这项令人振奋的工作中来，并且，我们相信，在这方面我们会有更多进展。

原文链接：https://arxiv.org/pdf/1712.10215.pdf

欢迎个人分享，媒体转载请后台回复「转载」获得授权，微信搜索「BOBO_AI」关注公众号

中国人工智能产业创新联盟于2017年6月21日成立，超200家成员共推AI发展，相关动态：

中新网：中国人工智能产业创新联盟成立

ChinaDaily：China forms 1st AI alliance

证券时报：中国人工智能产业创新联盟成立启动四大工程搭建产业生态“梁柱”

工信部网站：中国人工智能产业创新联盟与贵阳市政府、英特尔签署战略合作备忘录

点击下图加入联盟

下载中国人工智能产业创新联盟入盟申请表

关注“雷克世界”后不要忘记置顶哟

我们还在搜狐新闻、雷克世界官网、腾讯新闻、网易新闻、一点资讯、天天快报、今日头条、雪球财经……

↓↓↓点击阅读原文查看中国人工智能产业创新联盟手册

转载请注明原文地址: https://www.6miu.com/read-1250391.html

技术

最新回复(0)