Motivation
- 从行为标签合成运动缺乏描述力,这限制了运动合成的多样性和可控性
- 现有方法缺乏灵活的条件生成能力
Contribution
- 第一个将扩散模型应用到运动数据,为处理动作的时间性和可变长度设计新架构(Transformer decoder-based)
- 对于相同的文本,FLAME 生成的动作更多样
- FLAME 可以迁移到动作预测和动作填充的任务上,无需微调
Method

-
输入:时间步 token、运动长度 token、语言 token、动作 token。将预训练大语言模型提取的特征作为交叉注意力进行条件控制
-
输出:预测下一个时间步的噪声均值和方差,输出一个 2 - D m o 2\text{-}D_{mo} 2-Dmo 维度的向量表示均值和方差
-
为运动数据设计模型框架:由于动作具备时空属性,且不同动作的长度不同,因此无法用基于U-Net的框架处理统一所有数据,改用基于 transformer 的框架处理数据。
-
损失函数:参考 IDDPM
L h y b r i d = L s i m p l e + λ ⋅ L v l b L_{hybrid}=L_{simple}+\lambda\cdot L_{vlb} Lhybrid=Lsimple+λ⋅Lvlb
其中, L s i m p l e = E t , M 0 , ϵ t [ ∥ ϵ t − ϵ θ ( M t ( M 0 , ϵ t ) , c , t ) ∥ ] L_{simple}=\mathbb{E}_{t,M_0,\epsilon_t}[\left \| \epsilon_t-\epsilon_{\theta}(M_t(M_0,\epsilon_t),c,t) \right \|] Lsimple=Et,M0,ϵt[∥ϵt−ϵθ(Mt(M0,ϵt),c,t)∥] 表示对去噪过程中的每一步噪声分布的学习
L v l b : = L 0 + L 1 + ⋯ + L T − 1 + L T L 0 : = − log p θ ( x 0 ∣ x 1 ) L t − 1 : = D K L ( q ( x t − 1 ∣ x t , x 0 ) ∣ ∣ p θ ( x t − 1 ∣ x t ) ) L T : = D K L ( q ( x T ∣ x 0 ) ∣ ∣ p ( x T ) ) \begin{align*} L_{vlb}&:=L_0+L_1+\cdots+L_{T-1}+L_T\\ L_0&:=-\text{log}\ p_\theta(x_0|x_1)\\ L_{t-1}&:=D_{KL}(q(x_{t-1}|x_t,x_0)\ ||\ p_\theta(x_{t-1}|x_t))\\ L_T&:=D_{KL}(q(x_T|x_0)\ ||\ p(x_T)) \end{align*} LvlbL0Lt−1LT

最低0.47元/天 解锁文章
5885






