Stable Diffusion WebUI安装合成面部说话插件SadTalker

原创已于 2023-12-30 00:01:24 修改 · 2.2k 阅读

·

7

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#stable diffusion #人工智能

于 2023-12-29 23:30:44 首次发布

AI 专栏收录该内容

89 篇文章

订阅专栏

本文介绍了SadTalker的安装过程，包括ffmpeg的下载与配置，以及如何在WebUI上安装插件。详细解释了参数设置，如选择合适的源图片、音频输入、图像预处理方法和面部增强选项，以实现自然的面部语音合成视频。

部署运行你感兴趣的模型镜像

SadTalker可以根据一张图片、一段音频，合成面部说这段语音的视频。图片需要真人或者接近真人。

安装ffmpeg

下载地址：

https://www.gyan.dev/ffmpeg/builds/

下载ffmpeg-git-full.7z 后解压，将解压后的目录\bin添加到环境变量的Path中。

在终端输入ffmpeg命令，查看ffmpeg是否安装成功。

安装SadTalker插件

在WebUI的extensions选项卡下，使用“Install from URL”安装SadTalker插件。

插件地址：

https://github.com/OpenTalker/SadTalker

下载checkpoint

下载地址：

https://github.com/OpenTalker/SadTalker/releases

将下载下来的checkpoint放入stable-diffusion-webui/extensions/SadTalker/checkpoints/目录下。

使用SadTalker

重新启动WebUI，可以看到多出来一个SadTalker选项卡。

参数说明：

Source image，原始图片，最好是大头，不然会显得不自然
Input audio，输入音频，使用SadTalker示例的音频测试（\extensions\SadTalker\examples\driven_audio）
preprocess，图像预处理方式，crop（剪裁）, resize（重置大小）, full(原图)，其中crop根据面部关键点生成的表情和动画相对逼真，前提是不要全图，看起来会很怪
Still Mode (fewer head motion, works with preprocess `full`)，使用与原始图像相同的姿势，减少头部运动。这个选项在full(原图)的时候很有必要，优化人物头部运动，生成的视频更加自然。
GFPGAN as Face enhancer，勾选上, 可以获得更好的面部质量

您可能感兴趣的与本文相关的镜像

HunyuanVideo-Foley

HunyuanVideo-Foley

语音合成

HunyuanVideo-Foley是由腾讯混元2025年8月28日宣布开源端到端视频音效生成模型，用户只需输入视频和文字，就能为视频匹配电影级音效

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。