24、CLIP - Actor与PlaneFormers：文本驱动动画合成与稀疏视图3D重建的创新方案

gamma

于 2025-08-04 11:54:20 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：解码3D视觉前沿文章标签： CLIP-Actor PlaneFormers 文本驱动动画

本文链接：https://blog.youkuaiyun.com/gamma/article/details/152547580

解码3D视觉前沿专栏收录该内容

86 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

CLIP - Actor与PlaneFormers：文本驱动动画合成与稀疏视图3D重建的创新方案

1. CLIP - Actor：文本驱动的动画人体网格合成系统

CLIP - Actor是一个文本驱动的动画人体网格合成系统，它借助多模态感知和语义文本匹配，以分层方式推荐与输入文本提示语义最匹配的人体运动序列，然后通过解耦神经风格场（DNSF）以与姿势无关的方式对推荐运动的网格进行风格化处理。

1.1 检索模块评估

在检索模块中，研究人员考虑了两种分层模块和两种单阶段基线作为设计变体。评估结果如下表所示：
| 检索模块 | SICK4.8召回精度 [%] | SICK4.4召回精度 [%] | SICK[4.4,4.8]召回精度 [%] |
| — | — | — | — |
| CLIP | 91.94 | 85.21 | 81.62 |
| MPNet | 91.94 | 83.56 | 80.55 |
| MPNet + CLIP | 91.34 | 85.48 | 80.41 |
| CLIP + MPNet (Ours) | 92.24 | 85.75 | 81.90 |

单阶段基线在SICK4.8设置中与分层模型结果相当，因为该设置中句子对相关性更强。但在SICK4.4中，CLIP的精度高于MPNet，这是因为CLIP能捕捉视觉语义，而MPNet更关注文本描述的差异，对文本结构敏感。在样本数量增加的SICK[4.4, 4.8]设置中，CLIP结果与本文方法相当，但没有语言专家MPNet的帮助仍不够。MPNet + CLIP在不同设置下性能不稳定，而完整的检索模块在所有设置下始终表现出色，

会员秒杀 ¥9.9 重磅福利

超级会员免费看