论文介绍
题目:
Poseformerv2: Exploring frequency domain for efficient and robust 3d human pose estimation
论文地址:
链接: https://arxiv.org/pdf/2303.17472
创新点
文章提出一种方法,用于3D人体姿态估计,它通过在频域中探索长骨架序列的紧凑表示来提高效率和对噪声2D关节检测的鲁棒性,与原始PoseFormer相比,在速度-准确性权衡和对2D关节检测噪声的鲁棒性方面显著提高了性能。
-
频率域表示:文章提出了在3D人体姿态估计(HPE)中使用频率域表示的创新方法。具体来说,通过离散余弦变换(DCT)将输入的2D关节序列转换到频率域,并仅利用部分低频系数来表示整个序列,这有助于减少计算负担并提高对噪声的鲁棒性。
-
时间-频率特征融合模块:为了有效地结合时域和频域的特征,文章设计了一个时间-频率特征融合模块。这个模块允许模型在不增加计算负担的情况下,通过低频DCT系数扩展其感受野,同时利用中心帧的细粒度特征。
-
改进的速度-准确性权衡:通过上述方法,PoseFormerV2在保持或提高准确性的同时,显著减少了计算量。在Human3.6M和MPI-INF-3DHP两个基准数据集上的实验表明,PoseFormerV2在速度和准确性的权衡上优于原始的PoseFormer和其他基于变换器的方法。
-
对噪声的鲁棒性:文章提出的方法对2D关节检测的噪声更加鲁棒,这在实际应用中非常重要,因为高质量的2D检测往往难以获得。通过在频率域中过滤掉高频噪声,模型能够更好地处理不完美的2D关节输入。
方法
模型总体架构
PoseFormerV2的总体架构继承自PoseFormer,主要包含两个关键模块:空间变换器编码器和时间-频率特征融合变换器。模型首先将输入的2D人体关节序列通过离散余弦变换(DCT)转换到频率域,并仅保留部分低频系数以紧凑地表示整个序列。这些低频系数与中心帧的细粒度特征相结合,输入到时间-频率特征融合模块中,该模块使用变换器层来建模跨帧的时间依赖性,同时融合时域和频域的特征。这样,PoseFormerV2能够在不增加计算负担的情况下,有效地利用长序列信息,提高模型对噪声的鲁棒性,并在两个标准数据集上展现出优于前作的性能。
空间变换器编码器
PoseFormerV2的核心模块包括空间变换器编码器和时间-频率特征融合变换器。空间变换器编码器负责处理输入的2D人体关节序列,它只关注序列中的中心帧,从而减少了计算量。这个编码器通过自注意力机制构建单帧内关节之间的空间关系。
时间-频率特征融合变换器
时间-频率特征融合变换器是模型的另一个核心部分,它结合了时域和频域的特征。这个模块首先将输入序列转换到频率域,保留重要的低频DCT系数,这些系数能够捕获序列的整体动态,同时过滤掉高频噪声。然后,这些低频系数与空间编码器输出的中心帧特征相结合,输入到时间-频率特征融合变换器中。这个变换器使用变换器层来融合时域和频域的特征,有效地模拟跨帧的人体运动,并预测中心帧的3D姿态。通过这种方式,PoseFormerV2能够在保持计算效率的同时,提高对噪声的鲁棒性,并提升整体的估计精度。
模型迁移
时间-频率特征融合变换器模块的作用主要是融合时域和频域的特征,以提高模型对序列数据的处理效率和鲁棒性。这个模块特别适合处理那些需要同时考虑局部细节和全局上下文信息的任务。具体来说,它在以下领域和任务中具有潜在的应用价值:
-
视频理解:在视频分析中,该模块可以用来提高对视频帧序列的理解,例如动作识别、视频分类等,通过结合局部动作特征和视频的全局时间特征。
-
时序数据分析:在金融、气象等领域,时序数据包含丰富的时间信息,该模块可以帮助识别和预测长期趋势和短期波动。
消融实验
-
低频DCT系数的影响:实验显示,通过引入低频DCT系数来代表长序列数据,PoseFormerV2能够有效地扩大模型的感受野,并且提高了模型对噪声的鲁棒性。这表明,低频DCT系数作为一种紧凑的序列表示,对于处理长序列数据和提高模型稳定性具有重要作用。
-
FreqMLP的作用:将传统的MLP替换为FreqMLP后,实验结果表明这种改动能够进一步提升模型性能。FreqMLP通过在前馈网络中加入DCT和IDCT,使得模型能够更有效地处理时域特征,并与频域特征相结合,从而提高了模型对细节动态的捕捉能力。
-
输入帧数和DCT系数数量的调整:消融实验还探究了不同数量的输入帧和保留的DCT系数对模型性能的影响。结果显示,适当调整这些参数可以在模型的速度和准确性之间实现平衡,允许根据不同的应用场景和需求灵活配置模型。
-
总体性能提升:综合消融实验的结果,PoseFormerV2在处理效率和鲁棒性方面相比于PoseFormerV1都有了显著的提升。这些改进使得PoseFormerV2在实际应用中更加灵活和有效,尤其是在面对资源受限或数据质量不佳的情况时。