论文阅读(8)Generating Holistic 3D Human Motion from Speech

Motivation

  • 人类行为需要从身体、手部和面部多角度理解

Contribution

  • 构建了一个 3D 全身网格标注数据集以解决数据集稀缺的问题
  • 第一个提出根据语音自回归合成真实多样的三维肢体动作、手势和面部表情的方法

Dataset

数据集由全身网格和同步语音组成,包含身体姿势、手势和面部表情。相较其他数据集,对人体的表征更加精细。

Dataset Building:

  1. 手动筛选低质量视频,得到来自 4 个说话人的 26.9 小时的高质量数据集
  2. 采用 SMPL-X 模型的拓扑结构来重建 3D 全身网格

P-GT Improving:

  • 初始化:使用 PIXIE、PyMAF-X、DECA 来分别初始化身体姿势参数 θb\theta^bθb、手部姿势参数 θh\theta^hθh、面部参数 θf\theta_fθf
  • 引入多种信息:从 DeepLab V3 获取身体轮廓信息,用于更准确地约束身体的重建;从 MediaPipe 获取面部标记信息,从 MICA 获取面部形状信息,以更好地重建面部细节
  • 正则化:在身体和运动姿势引入平滑项,减小由噪声 2D 检测到的关键点引起的抖动结果;对关节位置添加常数—速度平滑项;使用 Collision Penalizer 以防止两手的相互穿透。

Training Loss:
E(β,{ θ}t=1T,{ ψ}t=1T,ψlight,ψlbs,tFS)=∑t=1T(ESMPLify−X(t))+λFELFE+λFSLFS+λFRLFR+λmbMb+λmhMh+λmjMj+λsilLsil+λpenLpen, \begin{array} {c} { { {E ( \beta, \{\theta\}_{t=1}^{T}, \{\psi\}_{t=1}^{T}, \psi_{l i g h t}, \psi_{l b s}, t_{F S} )=}}} \\ { { {\sum_{t=1}^{T} ( E_{S M P L i f y-X} ( t ) )+\lambda_{F E} \mathcal{L}_{F E}+\lambda_{F S} \mathcal{L}_{F S}+\lambda_{F R} \mathcal{L}_{F R}+}}} \\ { { {\lambda_{m b} \mathcal{M}_{b}+\lambda_{m h} \mathcal{M}_{h}+\lambda_{m j} \mathcal{M}_{j}+\lambda_{s i l} \mathcal{L}_{s i l}+\lambda_{p e n} \mathcal{L}_{p e n},}}} \\ \end{array} E(β,{ θ}t=1T,{ ψ}t=1T,ψlight,ψlbs,tFS)=t=1T(ESMPLifyX(t))+λFELFE+λFSLFS+λFRLFR+λmbMb+λmhMh+λmjMj+λsilLsil+λpen

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值