论文阅读（5）FLAME: Free-form Language-based Motion Synthesis & Editing

原创

已于 2024-10-17 11:56:49 修改 · 1.1k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #AIGC

于 2024-10-17 11:47:45 首次发布

Motivation

从行为标签合成运动缺乏描述力，这限制了运动合成的多样性和可控性
现有方法缺乏灵活的条件生成能力

Contribution

第一个将扩散模型应用到运动数据，为处理动作的时间性和可变长度设计新架构（Transformer decoder-based）
对于相同的文本，FLAME 生成的动作更多样
FLAME 可以迁移到动作预测和动作填充的任务上，无需微调

Method

模型框架

输入：时间步 token、运动长度 token、语言 token、动作 token。将预训练大语言模型提取的特征作为交叉注意力进行条件控制
输出：预测下一个时间步的噪声均值和方差，输出一个 $2\text{-}D_{mo}$ 维度的向量表示均值和方差
为运动数据设计模型框架：由于动作具备时空属性，且不同动作的长度不同，因此无法用基于U-Net的框架处理统一所有数据，改用基于 transformer 的框架处理数据。
损失函数：参考 IDDPM

$L_{hybrid}=L_{simple}+\lambda\cdot L_{vlb}$

其中， $L_{simple}=\mathbb{E}_{t,M_0,\epsilon_t}[\left \| \epsilon_t-\epsilon_{\theta}(M_t(M_0,\epsilon_t),c,t) \right \|]$ 表示对去噪过程中的每一步噪声分布的学习
$\begin{align*} L_{vlb}&:=L_0+L_1+\cdots+L_{T-1}+L_T\\ L_0&:=-\text{log}\ p_\theta(x_0|x_1)\\ L_{t-1}&:=D_{KL}(q(x_{t-1}|x_t,x_0)\ ||\ p_\theta(x_{t-1}|x_t))\\ L_T&:=D_{KL}(q(x_T|x_0)\ ||\ p(x_T)) \end{align*}$

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

父子文

关注关注

10
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

TF_FLAME_人脸建模_FLAME人头模型_3D人脸模型库_3dMM_

10-03

3D人脸模型建模工具，用于人脸建模，3DMM系数匹配

FLAME-Blender-Add-on：用于FLAME面部模型的Blender附加组件

01-30

FLAME-Blender-Add-on：用于FLAME面部模型的Blender附加组件

参与评论您还未登录，请先登录后发表或查看评论

1 条评论

优快云-Ada助手 2024.10.18
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。