hyt12321-优快云博客

原创 Sonic: Shifting Focus to Global Audio Perception in Portrait Animation 数字人论文精读

Sonic相比先前其他的方法，如echomimic等，对音频信息进行了全面探索，实际测试效果确实不错，对于输入音频为音乐、静音等能够保持嘴形稳定、不抖动，优于先前的SOTA方法。但是运行速度较慢，10秒的音频长度在 V100显卡上约需要10分钟进行生成。文章还是很有必要一读的，其对于音频信息的探索非常值得借鉴，如文章中所说，符合音频驱动的底层逻辑。原先的图片数字人嘴形同步任务主要采用辅助视觉和空间信息来驱动嘴形和生成头部动作，对于全局的音频感知探索有限，导致了生成的视频自然度较低，且嘴形不一致的问题。

2025-02-25 21:25:01 1004 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人