自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 Sonic: Shifting Focus to Global Audio Perception in Portrait Animation 数字人论文精读

Sonic相比先前其他的方法,如echomimic等,对音频信息进行了全面探索,实际测试效果确实不错,对于输入音频为音乐、静音等能够保持嘴形稳定、不抖动,优于先前的SOTA方法。但是运行速度较慢,10秒的音频长度在 V100显卡上约需要10分钟进行生成。文章还是很有必要一读的,其对于音频信息的探索非常值得借鉴,如文章中所说,符合音频驱动的底层逻辑。原先的图片数字人嘴形同步任务主要采用辅助视觉和空间信息来驱动嘴形和生成头部动作,对于全局的音频感知探索有限,导致了生成的视频自然度较低,且嘴形不一致的问题。

2025-02-25 21:25:01 787 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除