Facebook SimPoE用单目摄像头实现全新人体姿态估计精度

时间：2021-04-21 16:15:44来源：互联网

查看引用/信息源请点击：映维网在保证物理合理性的同时实现了全新的姿态精度。（映维网2021年04月21日）从单目视...

查看引用/信息源请点击：映维网

在保证物理合理性的同时实现了全新的姿态精度。

（映维网 2021年04月21日）从单目视频精确估计三维人体运动需要建模Kinematics运动学（无物理力的运动）和Dynamics动力学（有物理力的运动）。

为了提高视频中估计人体运动的物理合理性，最近的研究开始在公式中采用动力学。这种方法首先对运动进行估计，然后利用基于物理的轨迹优化方法对诱导运动的力进行优化。基于轨迹优化的方法存在一定的不足。首先，轨迹优化需要在测试时求解一个高度复杂的优化问题。这可能属于计算密集型，并且需要对时间窗口甚至整个运动序列进行批处理，从而导致姿态预测的高延迟，并且不适合交互式实时应用程序。

其次，轨迹优化需要简单可微的物理模型，这可能导致近似误差较大。最后，将物理应用于基于轨迹优化的方法是作为一个后处理步骤，其将给定的运动投影到物理合理的运动。由于它是基于优化，所以没有一个学习机制尝试将优化的运动与ground truth相匹配。所以，轨迹优化所产生的运动在物理上可能合理，但离ground truth相距甚远，特别是当输入运动不准确时。

针对上述局限性，Facebook和卡内基梅隆大学的研究人员提出了一种新的方法：SimPoE（Simulated Character Control for Human Pose Estimation；人体姿态估计的模拟特征控制）。

SimPoE将基于图像的运动学推理和基于物理的动力学建模紧密地集成到一个联合学习框架中。与轨迹优化不同，SimPoE是一个因果时间模型，带有一个集成的物理模拟器。

具体来说，融易新媒体，SimPoE学习以当前姿态和下一帧图像作为输入的策略，并为模拟器内的代理角色生成控件。其中，控件输出下一帧的姿态估计。为了执行运动学推断，所述策略包含一个可学习的运动学姿态精化单元，后者使用图像证据（2D关键点）迭代精化运动学姿态估计。精化单元以关键点重投影损失梯度作为输入，对姿态和关键点的几何信息进行编码，然后输出运动姿态更新。

基于这种改进的运动学姿态，策略然后计算角色控制动作，如角色的比例驱动（PD）控制器的目标关节角度，从而推进角色状态并获得下一帧姿态估计。所述策略设计将运动学姿态精化单元与基于动力学的控制生成单元相结合，并配合强化学习（RL），以保证姿态估计的准确性和物理合理性。在每个时间步骤，根据估计的运动和ground truth之间的相似性来分配奖励。

为了进一步提高姿态估计精度，SimPoE同时引入了一种新的控制机制meta-PD-control。PD控制器广泛应用于先前的研究，其主要是将策略产生的动作转化为控制角色的关节力矩。然而，PD控制器参数通常具有需要手动调整的固定值，这可能产生次优结果。相反，在meta-PD-control中，SimPoE的策略训练成基于角色的状态在模拟步骤中动态调整PD控制器参数，以实现对角色运动的更精细控制。

研究人员在两个大型数据集和一个包含手指运动细节的内部人体运动数据集验证了SimPoE。团队比较了SimPoE和最先进的单目3D人体姿态估计方法，包括运动学和基于物理的方法。在这两个数据集上，SimPoE在基于姿势和基于物理的度量方面都优于先前的研究。另外，与先前基于物理的方法相比，SimPoe的姿势精度有显著提高。

相关论文：

SimPoE: Simulated Character Control for 3D Human Pose Estimation

https://paper.nweon.com/9688

团队将会在6月举行的计算机视觉与模式识别大会介绍名为《SimPoE: Simulated Character Control for 3D Human Pose Estimation》的论文。