24、CLIP - Actor与PlaneFormers:文本驱动动画合成与稀疏视图3D重建的创新方案

CLIP - Actor与PlaneFormers:文本驱动动画合成与稀疏视图3D重建的创新方案

1. CLIP - Actor:文本驱动的动画人体网格合成系统

CLIP - Actor是一个文本驱动的动画人体网格合成系统,它借助多模态感知和语义文本匹配,以分层方式推荐与输入文本提示语义最匹配的人体运动序列,然后通过解耦神经风格场(DNSF)以与姿势无关的方式对推荐运动的网格进行风格化处理。

1.1 检索模块评估

在检索模块中,研究人员考虑了两种分层模块和两种单阶段基线作为设计变体。评估结果如下表所示:
| 检索模块 | SICK4.8召回精度 [%] | SICK4.4召回精度 [%] | SICK[4.4,4.8]召回精度 [%] |
| — | — | — | — |
| CLIP | 91.94 | 85.21 | 81.62 |
| MPNet | 91.94 | 83.56 | 80.55 |
| MPNet + CLIP | 91.34 | 85.48 | 80.41 |
| CLIP + MPNet (Ours) | 92.24 | 85.75 | 81.90 |

单阶段基线在SICK4.8设置中与分层模型结果相当,因为该设置中句子对相关性更强。但在SICK4.4中,CLIP的精度高于MPNet,这是因为CLIP能捕捉视觉语义,而MPNet更关注文本描述的差异,对文本结构敏感。在样本数量增加的SICK[4.4, 4.8]设置中,CLIP结果与本文方法相当,但没有语言专家MPNet的帮助仍不够。MPNet + CLIP在不同设置下性能不稳定,而完整的检索模块在所有设置下始终表现出色,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值