初步学习了下人体姿态估计,卢老师高屋建瓴来了场overview.由于内容庞杂,只能简要记录下影响比较深刻的点。
transformer的人体估计:大体上是cnn+transformer。token并没有直接利用原图。而是用cnn后的特征图。 整体架构和VIT类似。当然没有去确认transformer类的说法的精度是否是SOTA。
RLE: 之前在SAM里听到过这个词,但并没有深究。这次重点提到了RLE。初步感觉类似于GAN和diffusion里面提到的分布拟合。但是里面提到的一些统计学的方法:重参数,残差似然技巧的确没听过,需要进一步学习。
人体参数化模型:SPML模型,将人体描述参数化,解耦成形态和姿态。然后利用参数化公式进一步描述。能写成显性方程式的东东总是透出优雅的味道。