论文阅读（8）Generating Holistic 3D Human Motion from Speech

最新推荐文章于 2025-11-25 10:44:32 发布

原创

最新推荐文章于 2025-11-25 10:44:32 发布 · 949 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #AIGC #人工智能 #深度学习

Motivation

人类行为需要从身体、手部和面部多角度理解

Contribution

构建了一个 3D 全身网格标注数据集以解决数据集稀缺的问题
第一个提出根据语音自回归合成真实多样的三维肢体动作、手势和面部表情的方法

Dataset

数据集由全身网格和同步语音组成，包含身体姿势、手势和面部表情。相较其他数据集，对人体的表征更加精细。

Dataset Building:

手动筛选低质量视频，得到来自 4 个说话人的 26.9 小时的高质量数据集
采用 SMPL-X 模型的拓扑结构来重建 3D 全身网格

P-GT Improving:

初始化：使用 PIXIE、PyMAF-X、DECA 来分别初始化身体姿势参数 $θb\theta^b$ 、手部姿势参数 $θh\theta^h$ 、面部参数 $θf\theta_f$
引入多种信息：从 DeepLab V3 获取身体轮廓信息，用于更准确地约束身体的重建；从 MediaPipe 获取面部标记信息，从 MICA 获取面部形状信息，以更好地重建面部细节
正则化：在身体和运动姿势引入平滑项，减小由噪声 2D 检测到的关键点引起的抖动结果；对关节位置添加常数—速度平滑项；使用 Collision Penalizer 以防止两手的相互穿透。

Training Loss:
$\begin{array} {c} { { {E ( \beta, \{\theta\}_{t=1}^{T}, \{\psi\}_{t=1}^{T}, \psi_{l i g h t}, \psi_{l b s}, t_{F S} )=}}} \\ { { {\sum_{t=1}^{T} ( E_{S M P L i f y-X} ( t ) )+\lambda_{F E} \mathcal{L}_{F E}+\lambda_{F S} \mathcal{L}_{F S}+\lambda_{F R} \mathcal{L}_{F R}+}}} \\ { { {\lambda_{m b} \mathcal{M}_{b}+\lambda_{m h} \mathcal{M}_{h}+\lambda_{m j} \mathcal{M}_{j}+\lambda_{s i l} \mathcal{L}_{s i l}+\lambda_{p e n} \mathcal{L}_{p e n},}}} \\ \end{array}$

最低0.47元/天解锁文章

4 条评论

Silver lining mie 2024.12.17
复现成功了吗佬
- Silver lining mie回复父子文 2024.12.19
  初学者有源码也复现不成功[face]emoji:054.png[/face]
- 父子文回复Silver lining mie 2024.12.17
  这篇文献有开源呀

优快云-Ada助手 2024.11.04
你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。