论文阅读(5)FLAME: Free-form Language-based Motion Synthesis & Editing

Motivation

  • 从行为标签合成运动缺乏描述力,这限制了运动合成的多样性和可控性
  • 现有方法缺乏灵活的条件生成能力

Contribution

  • 第一个将扩散模型应用到运动数据,为处理动作的时间性和可变长度设计新架构(Transformer decoder-based)
  • 对于相同的文本,FLAME 生成的动作更多样
  • FLAME 可以迁移到动作预测和动作填充的任务上,无需微调

Method

模型框架

  • 输入:时间步 token、运动长度 token、语言 token、动作 token。将预训练大语言模型提取的特征作为交叉注意力进行条件控制

  • 输出:预测下一个时间步的噪声均值和方差,输出一个 2 - D m o 2\text{-}D_{mo} 2-Dmo 维度的向量表示均值和方差

  • 为运动数据设计模型框架:由于动作具备时空属性,且不同动作的长度不同,因此无法用基于U-Net的框架处理统一所有数据,改用基于 transformer 的框架处理数据。

  • 损失函数:参考 IDDPM

L h y b r i d = L s i m p l e + λ ⋅ L v l b L_{hybrid}=L_{simple}+\lambda\cdot L_{vlb} Lhybrid=Lsimple+λLvlb

​ 其中, L s i m p l e = E t , M 0 , ϵ t [ ∥ ϵ t − ϵ θ ( M t ( M 0 , ϵ t ) , c , t ) ∥ ] L_{simple}=\mathbb{E}_{t,M_0,\epsilon_t}[\left \| \epsilon_t-\epsilon_{\theta}(M_t(M_0,\epsilon_t),c,t) \right \|] Lsimple=Et,M0,ϵt[ϵtϵθ(Mt(M0,ϵt),c,t)] 表示对去噪过程中的每一步噪声分布的学习
L v l b : = L 0 + L 1 + ⋯ + L T − 1 + L T L 0 : = − log  p θ ( x 0 ∣ x 1 ) L t − 1 : = D K L ( q ( x t − 1 ∣ x t , x 0 )   ∣ ∣   p θ ( x t − 1 ∣ x t ) ) L T : = D K L ( q ( x T ∣ x 0 )   ∣ ∣   p ( x T ) ) \begin{align*} L_{vlb}&:=L_0+L_1+\cdots+L_{T-1}+L_T\\ L_0&:=-\text{log}\ p_\theta(x_0|x_1)\\ L_{t-1}&:=D_{KL}(q(x_{t-1}|x_t,x_0)\ ||\ p_\theta(x_{t-1}|x_t))\\ L_T&:=D_{KL}(q(x_T|x_0)\ ||\ p(x_T)) \end{align*} LvlbL0Lt1LT

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值