CLIP-Actor:基于文本驱动的3D人体运动可视化模型
1. CLIP-Actor概述
CLIP-Actor的目标是通过对网格顶点的颜色和位移进行风格化处理,将符合输入描述的3D运动可视化。例如,对于自然语言提示“穿着蓝色牛仔裤的史蒂夫·乔布斯在走路”,模型会从数据集(如BABEL)中检索出符合该提示的运动序列,获取一系列3D网格,这些网格序列成为网格风格化的“内容”。然后,通过优化神经网络模型,赋予网格诸如衣服、头发等特征,最终生成一段穿着蓝色牛仔裤的史蒂夫·乔布斯走路的短视频。
形式上,给定文本提示 $y$,模型会检索出SMPL的持续时间为 $T$ 的姿势参数序列 $R_{1:T} = [R_1, \ldots, R_T]$。在单帧 $t$ 中,网格顶点 $M_t$ 可以通过线性映射获得:$M_t = M(R_t, \beta_t)$,其中 $R_t$ 表示姿势参数,$\beta_t$ 表示人体网格的形状参数。一个单帧的网格由面 $F$ 和3D网格顶点 $M_t \in R^{V \times 3}$ 表示,$V$ 是顶点数量。由于给定三角剖分下每帧的SMPL网格面 $F$ 相同,因此用网格顶点 $M_t$ 表示单个网格。$M_{1:T} = [M_1, \ldots, M_T]$ 表示完整的人体网格序列,并作为“内容”输入到解耦神经风格场(DNSF)中。DNSF学习网格顶点的“风格”(即颜色和位移),并生成一系列纹理化的网格 $M_{1:T}^*$。
2. 文本驱动的人体运动推荐
2.1 分层多模态运动检索
为了获得符合文本提示的运动序列,提出了分层多模态运动检索模块。该模块利用包含语言标签的大规模人体运动数据集BABEL
超级会员免费看
订阅专栏 解锁全文
844

被折叠的 条评论
为什么被折叠?



