窝牛号

Common Objects in 3D开源,一个用于 3D 重建的大规模数据集

重建 3D 对象是一个具有开创性的计算机视觉问题,AR/VR 应用 ,生成用于游戏的 3D 模型等。借助逼真的多功能 3D 重建,可以在传统智能手机和笔记本电脑以及增强现实眼镜来实现3D效果。

然而,当前的 3D 重建方法依赖于各种对象类别的学习模型,并且由于缺乏包含现实世界视频的数据集而阻碍了进展对象和这些对象的准确 3D 重建。由于模型依赖于这些示例来学习如何创建 3D 重建,研究人员通常只使用合成对象的数据集,这些数据集仅与现实世界问题的挑战性性质大致匹配。

为了帮助弥补这一差距并推动该领域的进步,facebook AI 发布了 3D 中的常见对象 (CO3D)

,一个大规模数据集,包含带有 3D 注释的常见对象类别的真实视频。CO3D 包含来自广泛使用的 MS-COCO 数据集中的 50 个类别的近 19,000 个视频捕获对象的总计 150 万帧。CO3D 在类别和对象的数量方面都超过了现有的替代方案。

该视频展示了 CO3D 数据集中的真实世界对象,以及详细的 3D 重建。彩虹线显示了拍摄视频的智能手机摄像头的轨迹。

Facebook还分享了Facebook在 NeRFormer 上的工作,这是一种通过观察来自 CO3D 数据集的视频来学习从新颖的观点合成对象图像的新方法。为此,NeRFormer 有效地结合了最近的两个机器学习贡献——变压器和神经辐射场。因此,在合成新对象视图方面,NeRFormer 的准确度比最接近的竞争对手高 17%。

Facebook的主要目标是收集用 3D 形状标注的野外常见物体的大规模现实生活数据集。虽然可以使用专用硬件(例如转盘 3D 扫描仪)收集后者,但该方法难以扩展以匹配包含不同类别的数千个对象的合成数据集的范围。相反,Facebook设计了一种仅需要以对象为中心的多视图图像的摄影测量方法。此类数据可以通过众包消费者智能手机拍摄的“转盘”视频有效地大量收集。

为此,Facebook在 Amazon Mechanical Turk (AMT) 上众包了以对象为中心的视频。每个 AMT 任务都要求工作人员在给定类别中选择一个对象,将其放置在固体表面上,然后录制视频,同时在整个对象周围移动一个完整的圆圈时保持整个对象的视野(示例可以在下面的视频中看到) . Facebook选择了 50 个 MS-COCO 类别,包括具有明确定义的形状概念并且是成功 3D 重建的良好候选者的静止物体。

这段关于儿童三轮车的视频是作为 CO3D 数据集的一部分收集的。

COLMAP 是一个成熟的摄影测量框架,通过跟踪智能手机摄像头在 3D 空间中的位置并进一步重建捕获对象表面的密集 3D 点云,提供被视为地面实况的 3D 注释。在上面的示例中可以看到示例重建和相机跟踪。最后,为了确保高质量的 3D 注释,Facebook设计了一种半自动的主动学习算法,可以过滤掉 3D 重建精度不足的视频。

这五个对象也是 CO3D 数据集的一部分

在发布 CO3D 数据集的同时,Facebook提出了 NeRFormer,这是一种新颖的深度架构,可通过观察收集的视频来学习对象类别的几何结构。在训练期间,NeRFormer 通过对表示物体几何形状和外观的神经辐射场 (NeRF) 进行可微分渲染来进行学习。重要的是,渲染是由一种新颖的深度 Transformer 执行的,它通过分析对象视频帧的内容来共同学习预测辐射场的属性,并通过沿着渲染光线“行进”来渲染新视图。通过这种方式,一旦 NeRFormer 学习了一个类别的通用结构,它就能够合成一个以前看不见的对象的新视图,只给出少量已知视图。

作为同类中的第一个数据集,CO3D 将恰当地实现现实生活 3D 对象的重建。事实上,CO3D 已经提供了训练数据,使Facebook的 NeRFormer 能够处理新视图合成 (NVS) 任务。在这里,逼真的 NVS 是实现完全沉浸式 AR/VR 效果的重要一步,其中对象可以虚拟地跨不同环境传输,这将允许通过共享或回忆用户的体验来连接用户。

除了在 AR/VR 中的实际应用之外,Facebook希望该数据集将成为最近通过隐式形状模型重建 3D 场景的方法(包括 NeRFormer、隐式可微渲染器、NeRF 等)激增的标准测试平台。

获取数据集: github.com/facebookresearch/co3d

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1