Contribution
- 正式定义了手势空间中的扩散和去噪过程,以合成高保真的音频对齐手势
- 设计具有隐式无分类器引导的 Diffusion Audio-Gesture Transformer,以更好地处理多个连续模态的条件信息,保证时序对齐
- 采用退火采样策略,以消除时间不一致性
Method

Problem Formulation
- 数据准备:
- 对于 N N N 帧的视频片段,提取出对应的语音音频序列 a = { a 1 , … , a N } a=\{a_1,\dots,a_N\} a={ a1,…,aN}
- 使用 O p e n P o s e OpenPose OpenPose 标记每一帧的骨架 x = { p 1 , … , p N } x=\{p_1,\dots,p_N\} x={ p1,…,pN}
- 数据预处理:
- 将骨架数据转换为单位方向向量的串联,其中 p i p_i pi 表示第 i i i 帧的骨架, J J J 是关节的总数, d i , j d_{i,j} di,j 表示第 i i i 帧中第 j j j 个和第 ( j + 1 ) (j+1) (j+1) 个关节之间的单位方向向量。
- 模型目标:
- 训练一个模型 G G G,其参数化为 θ \theta θ,目标是合成人体骨架序列 x x x,该序列受语音音频序列 a a a 和初始姿势 { p 1 , … , p M } \{p_1,\dots,p_M\} { p1,…,pM} 的条件限制。
- arg min θ ∥ x − G θ ( a , p 1 , … , p M ) ∥ \arg \min_{\theta}\| x-G_{\theta}(a,p_1,\dots,p_M) \| argminθ∥x−Gθ(a,p1,…,pM)∥
Diffusion Audio-Gesture Transformer
将噪声手势序列和上下文信息并入特征通道,利用注意力机制捕捉时序信息
Attention(Q,K,V)=softmax ( QK T l ) V \text{Attention(Q,K,V)=softmax}(\frac{\text{QK}^T}{\sqrt{l}})\text{V} Attention(Q,K,V)=softmax(

最低0.47元/天 解锁文章
1879






