Facebook开源3D重建数据集:Common Objects in 3D

2021-09-06

从远程呈现到模型生成,AR/VR在3D中重建对象是一个具有开创性的计算机视觉问题。得益于技术的进步,现在可以在传统智能手机和笔记本电脑屏幕、以及AR眼镜无缝融合真实和虚拟对象,从而驱动未来的体验。


然而,当前的三维重建方法依赖于各种对象类别(“汽车”、“甜甜圈”和“苹果”等)的学习模型,并且由于缺乏包含真实世界对象的视频和对象精确三维重建的数据集而受阻。因为模型依赖于所述示例来学习如何创建三维重建,研究人员通常只使用合成对象的数据集,而它们仅大致符合现实世界问题的挑战性性质。

为了帮助解决这一问题并推动所述领域的进步,Facebook AI日前发布了一个大规模数据集Common Objects in 3D (CO3D)。它包含带有3D注释的常见对象类别的真实视频,近19000个视频提供了150万帧,涉及MS-COCO数据集中50个类别的对象。CO3D在类别和对象的数量方面都超过了现有的备选方案。

下面这个视频显示CO3D数据集中的真实对象和详细的3D重建。彩虹线显示了捕获视频的智能手机摄像头的轨迹。

CO3D数据集中的真实对象和详细的3D重建

团队同时介绍了针对NeRFormer的研究。这种新方法可以通过观察CO3D数据集中的视频来学习从新视角合成对象图像。NeRFormer有效地结合了最近两项机器学习贡献:Transformers和Neural Radiance Fields神经辐射场。实验显示,NeRFormer在合成新对象视图方面比最接近的竞争对手高出17%。

1. 原理

Facebook的主要目标是收集野外常见对象的大规模真实数据集,并用3D形状进行注释。尽管可以通过专用硬件收集后者,但这种方法很难扩展到与合成数据集的范围相匹配,因为合成数据集包括不同类别的数千个对象。相反,研究人员设计了一种只需要以对象为中心的多视图图像的摄影测量方法。通过消费者智能手机拍摄的众包视频,团队可以有效地收集大量此类数据。

研究人员通过Amazon Mechanical Turk(AMT)众包了以对象为中心的视频。每个AMT任务都要求工作人员在给定类别中选择一个对象,将其放置在实体表面上,并录制一段视频。在围绕对象移动一整圈的同时,其需要将整个对象保持在视场之中。研究人员选择了50个MS-COCO类别,包括具有明确形状概念且是成功3D重建的优秀候选的静态对象。

作为CO3D数据集而收集的儿童三轮车视频。

COLMAP是一个成熟的摄影测量框架。它主要通过追踪智能手机摄像头在3D空间中的位置,以及进一步重建捕捉对象表面的密集3D点云来提供了视为ground truth的3D标注。在上面的例子中可以看到对象重建和摄像头跟踪的例子。最后,为了确保高质量的3D标注,研究人员设计了一种半自动主动学习算法,并用于过滤3D重建精度不足的视频。

这五个对象同样是CO3D数据集的一部分。

除了发布CO3D数据集,团队提出了全新的深层架构NeRFormer,它可以通过观察收集的视频来学习对象类别的几何结构。在训练过程中,NeRFormer通过微分渲染表示对象几何和外观的神经辐射场(NeRF)进行学习。重要的是,渲染由一种新型深度Transformer执行。其中,它通过分析对象视频帧的内容来联合学习预测辐射场的属性,并通过沿渲染光线“行进”来渲染新视图。以这种方式,一旦NeRFormer理解了一个类别的公共结构,它就能够在给定已知视图一小部分的情况下合成未曾见过的对象的新视图。

2. 为何重要

团队指出,作为同类第一个数据集,CO3D非常适合于重建现实生活中的3D对象。事实上,CO3D提供的训练数据已经允许NeRFormer处理新的视图合成(NVS)任务,而照片级真实感NVS是实现完全沉浸式AR/VR效果的重要一步。在所述过程中,对象可以虚拟地在不同的环境中传输,从而允许通过共享体验来联结用户。

除了在AR/VR中的实际应用外,研究人员同时希望所述数据集能够成为通过隐式形状模型重建3D场景的方法的标准测试平台,如NeRFormer, Implicit Differentiable Renderer和NeRF等等。

原文来自https://news.nweon.com/89170

在线咨询
联系电话

15605156696