窝牛号

Pathdreamer:Google发布适应与室内导航的世界模型

当一个人在一个陌生的建筑物中导航时,他们会利用许多视觉、空间和语义线索来帮助他们有效地实现目标。例如,即使在陌生的房子里,如果他们看到用餐区,他们也可以对厨房和休息区的可能位置进行智能预测,从而预测常见家用物品的预期位置。对于机器人代理,利用新建筑中的语义线索和统计规律是具有挑战性的。一种典型的方法是通过无模型强化学习以端到端的方式隐式学习这些线索是什么,以及如何将它们用于导航任务. 然而,以这种方式学习的导航线索学习成本高昂,难以检查,并且很难在另一个代理中重用而不从头开始学习。

在不熟悉的建筑物中导航的人们可以利用视觉、空间和语义线索来预测即将到来的事物。具有此功能的计算模型是视觉世界模型。

机器人导航和规划代理的 一个有吸引力的替代方案是使用世界模型来封装有关其周围环境的丰富而有意义的信息,这使代理能够对其环境中的可操作结果做出具体预测。此类模型在机器人、模拟和强化学习领域受到广泛关注,并取得了令人瞩目的成果,包括为模拟 2D 赛车任务找到第一个已知解决方案,并在 Atari 游戏中实现人类水平的表现。然而,与现实世界环境的复杂性和多样性相比,游戏环境仍然相对简单。

“ Pathdreamer: A World Model for Indoor Navigation ”中,发表于ICCV 2021,Google提出了一个世界模型,该模型仅使用有限的种子观察和建议的导航轨迹,生成对代理看不见的建筑物区域的高分辨率 360o 视觉观察。如下面的视频所示,Pathdreamer 模型可以从单个视点合成沉浸式场景,预测代理移动到新视点甚至完全看不见的区域(例如拐角处)时可能会看到什么。除了在视频编辑和使照片栩栩如生方面的潜在应用之外,解决这项任务有望将有关人类环境的知识编纂为有利于在现实世界中导航的机器人代理。例如,一个负责在陌生建筑中寻找特定房间或物体的机器人可以使用世界模型进行模拟,以在物理搜索任何地方之前识别可能的位置。

在模型中训练代理

Pathdreamer 仅提供单个观察(RGB、深度和分割)和建议的导航轨迹作为输入,合成距离原始位置长达 6-7 米的高分辨率 360o 观察,包括拐角处。有关更多结果,请参阅完整视频。

Pathdreamer 如何工作

Pathdreamer 将一个或多个先前观察的序列作为输入,并生成对未来位置轨迹的预测,这些预测可以由与返回的观察交互的代理预先提供或迭代提供。输入和预测都有 RGB、语义分割和深度图像组成。在内部,Pathdreamer 使用 3D 点云来表示环境中的表面。云中的点都标有它们的 RGB 颜色值和它们的语义分割类,例如墙壁、椅子或桌子。

为了预测新位置的视觉观察,首先将点云重新投影到新位置的 2D 中以提供“指导”图像,Pathdreamer 从中生成逼真的高分辨率 RGB、语义分割和深度。随着模型的“移动”,点云中会积累新的观察结果(真实的或预测的)。使用点云进行记忆的一个优势是时间一致性——重新访问的区域以与先前观察一致的方式呈现。

在内部,Pathdreamer 通过包含语义标签(顶部)和 RGB 颜色值(底部)的 3D 点云表示环境中的表面。为了生成新的观察结果,Pathdreamer 通过点云“移动”到新位置,并使用重新投影的点云图像作为指导。

为了将引导图像转换为合理、真实的输出,Pathdreamer 分两个阶段运行:第一阶段,结构生成器,创建分割和深度图像,第二阶段,图像生成器,将这些渲染为 RGB 输出。从概念上讲,第一阶段提供场景的合理高级语义表示,第二阶段将其渲染为逼真的彩色图像。两个阶段都基于卷积神经网络。

Pathdreamer 分两个阶段运行:第一阶段,结构生成器,创建分割和深度图像,第二阶段,图像生成器,将这些渲染成 RGB 输出。结构生成器以噪声变量为条件,使模型能够在高度不确定的区域合成不同的场景。

多样化的生成结果

在高度不确定的区域,例如预计在拐角处或在看不见的房间中的区域,可能会有许多不同的场景。结合随机视频生成的思想,Pathdreamer 中的结构生成器以噪声变量为条件,该变量表示引导图像中未捕获的下一个位置的随机信息。通过对多个噪声变量进行采样,Pathdreamer 可以合成不同的场景,允许代理对给定轨迹采样多个似是而非的结果。这些不同的输出不仅反映在第一阶段的输出(语义分割和深度图像)中,还反映在生成的 RGB 图像中。

Pathdreamer 能够为高度不确定的区域生成多个不同且合理的图像。最左边一列的引导图像表示代理先前看到的像素。黑色像素代表以前看不见的区域,Pathdreamer 通过对多个随机噪声向量进行采样来呈现不同的输出。在实践中,当代理在环境中导航时,可以通过新的观察结果来通知生成的输出。

Pathdreamer 接受了来自Matterport3D 的图像和 3D 环境重建的训练,并且能够合成逼真的图像以及连续的视频序列。由于输出图像具有高分辨率和 360o,因此可以很容易地将其转换为现有导航代理用于任何相机视野。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1