论文链接:[2309.07910] TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting (arxiv.org)
代码链接:
作者即将公布
1.简介:
该篇文章提出了TEMPO,是一种高效的多视图姿态估计模型,其学习了一种鲁棒的时空的表示,提高了姿态精度的同时进行了跟踪人体与预测未来的姿势。
2.项目流程图:
3.项目原理(只包含person detection):
根据之前的工作,作者将根关节定义为髋关节中段(mid-hip)。在给定的时间t,检测器模块将一组N个图像作为输入,每个图像对应于在时间t相同场景的不同相机视图。对于每个图像,我们用预训练的主干提取特征,得到N个特征图
根据每个视图相机矩阵,采用双采样过程,所以对一个voxel,有
然后,我们通过沿z轴取最大值来计算V的鸟瞰图表示:
从场景中的每个关节的(x,y)位置的生成的2D heatmap,记作
,从中前K个位置进行采样,得到K个proposals,然后对其进行1D CNN的回归其根关节高度,记作
,然后对最大的z轴进行采样,获得
,最后用多头2D CNN回归宽度
长度、中心点给每个proposal。
损失函数有三块,分别从1D heatmap,2D heatmap,边界框回归
之后预测每个平面中每个关节的2D位置,并将预测的2D位置融合在一起,形成3D骨架,每个特征图通过2D CNN来解码三个平面中每个平面中每个人关节的关节似然热图,并且利用学习的加权网络将来自每个平面的2D关节预测融合到3D中。将预测姿态的损失定义为计算的2D热图和GT热图之间的均方损失,以及预测关节位置和GT的L1损失
4.数据对比
5.效果图