synctalk模型部署教程

原创

于 2024-10-22 11:16:54 发布 · 1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #数字人 #说话头 #3D #智能修复 #面部同步

一、模型介绍

在合成逼真的语音驱动的说话头视频时，实现高度同步是一项重大挑战。传统的生成对抗网络 (GAN) 难以保持一致的面部身份，而神经辐射场 (NeRF) 方法虽然可以解决这个问题，但通常会产生不匹配的唇部运动、不充分的面部表情和不稳定的头部姿势。栩栩如生的说话头需要同步协调主体身份、唇部运动、面部表情和头部姿势。缺乏这些同步是一个根本缺陷，导致不切实际和人为的结果。

为了解决同步这一关键问题，即创建逼真的说话头的“魔鬼”，我们引入了 SyncTalk。这种基于 NeRF 的方法有效地保持了主体身份，增强了说话头合成的同步性和真实感。SyncTalk 采用面部同步控制器将唇部运动与语音对齐，并创新地使用 3D 面部混合形状模型来捕捉准确的面部表情。我们的头部同步稳定器优化了头部姿势，实现了更自然的头部运动。 Portrait-Sync Generator 可恢复头发细节，并将生成的头部与躯干融合，带来无缝视觉体验。大量实验和用户研究表明，SyncTalk 在同步和真实性方面优于最先进的方法。

二、部署流程

环境测试

在 Ubuntu 20.04、CUDA 11.3 上测试

1.克隆并安装

（1）克隆

git clone https://github.com/ZiqiaoPeng/SyncTalk.git
cd SyncTalk

（2）安装依赖项

conda create -n synctalk python==3.8.8
conda activate synctalk
pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
sudo apt-get install portaudio19-dev
pip install -r requirements.txt
pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py38_cu113_pyt1121/download.html
pip install tensorflow-gpu==2.8.1
pip install ./freqencoder
pip install ./shencoder
pip install ./gridencoder
pip install ./raymarching
<