窝牛号

Google提出一种关于图像和视频中的姿势感知新算法

日常活动(例如慢跑,读书,倒水或参加体育运动)可以看作是一系列姿势,包括一个人的身体的位置和方向。从图像和视频中了解姿势是启用一系列应用程序(包括增强现实显示,和)的关键步骤。但是,根据相机的视点,在图像和视频中以二维捕获的3维姿势看起来会有所不同。仅使用2D信息识别3D姿势相似性的能力将有助于视觉系统更好地理解世界。

在ECCV 2020上的焦点论文&34;(Pr-VIPE)中,Google提出了一种新的人体姿势感知算法,该算法通过映射来识别不同相机视图中人体姿势的相似性到视图不变的嵌入空间。此功能可启用诸如姿势检索,动作识别,动作视频同步等任务。与直接将2D姿势关键点映射到3D姿势关键点的现有模型相比,Pr-VIPE嵌入空间具有(1)视图不变,(2)以捕获2D输入歧义,并且(3)不需要相机参数在训练或推理中。经过实验室内设置数据的训练,该模型可以在开箱即用的野生图像上工作,并具有相当不错的2D姿态估计器(例如PersonLab,BlazePose等)。该模型很简单,嵌入紧凑,可以使用15个CPU进行训练(约1天)。Google已经在GitHub存储库上发布了代码。

Pr-VIPE可以直接应用于从不同角度视频

Pr-VIPE Pr-VIPE的输入是一组2D关键点,来自任何产生至少13个身体关键点的2D姿势估计器,输出是姿势嵌入的均值和方差。2D姿势的嵌入之间的距离与其在绝对3D姿势空间中的相似性相关。Google的方法基于两个观察结果:

· 随着视点的变化,相同的3D姿势在2D中可能看起来非常不同。

· 可以从不同的3D姿势投影相同的2D姿势。

第一次观察激发了对视图不变性的需求。为此,Google定义匹配概率,即从相同或相似的3D姿势投影不同2D姿势的可能性。Pr-VIPE预测的匹配姿势对的匹配概率应高于非匹配对。

为了解决第二个观察,Pr-VIPE利用了概率嵌入公式。由于许多3D姿势可以投影到相同或相似的2D姿势,因此模型输入表现出固有的模糊性,很难通过嵌入空间中的点对点确定性映射来捕获。因此,Google通过概率映射将2D姿势映射到嵌入分布,Google使用方差表示输入2D姿势的不确定性。例如,在下图中,左侧3D姿势的第三2D视图类似于右侧不同3D姿势的第一2D视图,因此Google将它们映射到嵌入空间中相似的位置,且差异较大。

Pr-VIPE使视觉系统能够识别视图中的2D姿势。Google使用Pr-VIPE嵌入2D姿势,使得这些嵌入是(1)视图不变的(相似3D姿势的2D投影紧密嵌入在一起)和(2)概率。通过嵌入检测到的2D姿势,Pr-VIPE可以从不同的视图直接检索姿势图像,还可以应用于动作识别和视频对齐。

在训练期间,Google从两个来源使用2D姿势:多视图图像和地面真实3D姿势的投影。2D姿势(锚,正,负的)是从一个批次,其中所述锚定件和阳性是相同的三维姿态的两个不同的突起选择,并且负是非匹配三维姿态的投影。然后,Pr-VIPE根据其嵌入来估算2D姿态对的匹配概率。在训练过程中,Google将正对的匹配概率逼近1,并且正向成对丢失,其中通过最大程度地增大匹配概率的比率,使正对之间的嵌入距离最小,而负对的匹配概率较小。在正负对之间,三重比损失。

Pr-VIPE模型概述。在训练过程中,Google应用了三种损失(三重比损失,正成对损失和在嵌入之前应用单位高斯的先验损失)。在推理期间,模型将输入的2D姿势映射到概率的,视图不变的嵌入。

概率嵌入,Pr-VIPE基于将2D姿势映射为概率嵌入,作为多元高斯分布,用于计算两个分布之间的相似性得分。在训练期间,Google使用高斯先验损失对预测分布进行正则化。

评估Google提出了一种新的交叉视图姿态检索基准,以评估嵌入的视图不变性。给定单眼姿势图像,跨视图检索旨在从不使用相机参数的不同视图中检索相同的姿势。结果表明,与两个评估数据集(,MPI-INF-3DHP)中的基线方法相比,Pr-VIPE检索在各个视图中的姿势均更准确。

相对于基线方法(3D姿态估计),Pr-VIPE可以更准确地检索跨不同视图的姿态。

常见的3D姿态估计方法(如简单的基线用于上述比较,,和EpipolarPose,以及很多其他),预测照相机坐标三维姿态,这是不直接查看不变。因此,使用估计的3D姿势进行检索需要在每个查询索引对之间进行严格对齐,由于需要进行(SVD),因此计算量很大。相反,Pr-VIPE嵌入可直接用于欧几里得空间中的距离计算,而无需任何后处理。

应用程序视图不变的姿势嵌入可以应用于许多与图像和视频相关的任务。下面,Google展示了Pr-VIPE在不使用相机参数的情况下应用于野外图像的交叉视图检索的情况。

通过使用Pr-VIPE嵌入检测到的2D姿态,Google无需使用相机参数即可从不同的视图中检索野外图像。使用查询图像(第一行),Google从不同的摄像机视图中搜索匹配的姿势,然后显示最近的邻居检索(第二行)。这使Google能够更轻松地在摄像机视图之间搜索匹配的姿势。

相同的Pr-VIPE模型也可以用于视频对齐。为此,Google在一个小的时间窗口内堆叠Pr-VIPE嵌入,并使用动态时间规整(DTW)算法来对齐视频对。

手动视频对齐既困难又费时。在此,Pr-VIPE用于自动对齐从不同视图重复执行的相同动作的视频。

通过DTW计算的视频对齐距离可通过使用最近邻居搜索对视频进行分类来用于动作识别。Google使用Penn Action数据集评估Pr-VIPE嵌入,并证明在不对目标数据集进行微调的情况下使用Pr-VIPE嵌入可产生极具竞争力的识别精度。此外,Google显示Pr-VIPE甚至仅使用索引集中单个视图中的视频即可获得相对准确的结果。

Pr-VIPE仅使用姿势输入识别跨视图的动作,并且与仅使用姿势或使用附加上下文信息的方法具有可比性或优于后者(例如Iqbal等人,Liu和Yuan,Luvizon等人和Du等人。)。当操作标签仅可用于单一视图的视频时,Pr-VIPE(仅1视图)仍可以实现相对准确的结果。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1