每日记录论文1-TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting(ICCV 2023)

论文链接:[2309.07910] TEMPO: Efficient Multi-View Pose Estimation, Tracking, and Forecasting (arxiv.org)

代码链接

作者即将公布

1.简介:

该篇文章提出了TEMPO,是一种高效的多视图姿态估计模型,其学习了一种鲁棒的时空的表示,提高了姿态精度的同时进行了跟踪人体与预测未来的姿势。

2.项目流程图:

3.项目原理(只包含person detection)

根据之前的工作,作者将根关节定义为髋关节中段(mid-hip)。在给定的时间t,检测器模块将一组N个图像作为输入,每个图像对应于在时间t相同场景的不同相机视图。对于每个图像,我们用预训练的主干提取特征,得到N个特征图F_1^{T},F_{2}^{T},F_{3}^{T},...F_{N}^{T}

根据每个视图C_{1}^{T},C_{2}^{T}....C_{N}^{T}相机矩阵,采用双采样过程,所以对一个voxel,有

v=\sum_{i=1}^{N}F_{i}^{t}(C_{i}x)

然后,我们通过沿z轴取最大值来计算V的鸟瞰图表示:

F_{BVE}^{t}=\underset{z}{max}V

从场景中的每个关节的(x,y)位置的F_{BEV}^{t}生成的2D heatmap,记作H^{t},从中前K个位置进行采样,得到K个proposals,然后对其进行1D CNN的回归其根关节高度,记作H_{k}^{t},然后对最大的z轴进行采样,获得D_{t}={(x1,y1,z1),(x2,y2,z2)...(xk,yk,zk))},最后用多头2D CNN回归宽度

长度、中心点给每个proposal。

损失函数有三块,分别从1D heatmap,2D heatmap,边界框回归

L_{det}=L_{2D}+L_{1D}+L_{bbox}

之后预测每个平面中每个关节的2D位置,并将预测的2D位置融合在一起,形成3D骨架,每个特征图通过2D CNN来解码三个平面中每个平面中每个人关节的关节似然热图,并且利用学习的加权网络将来自每个平面的2D关节预测融合到3D中。将预测姿态的损失定义为计算的2D热图和GT热图之间的均方损失,以及预测关节位置和GT的L1损失

4.数据对比

5.效果图

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值