前言
Stable Diffusion是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。
SadTalker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。
现在,可以在SD上部署SadTalker插件实现以上内容。
github链接:https://github.com/zhoubx/OpenTalker-SadTalker
准备:电脑配置需求(SD)
操作系统:windows10以后
CPU:不做强制性要求
内存:推荐8G以上
显卡:必须是Nvidia独立显卡,显存最低4G,推荐20系以后
整合包推荐放在固态硬盘中,提高模型加载速度
_演示电脑:_Lenovo Legion R7000P(联想拯救者R7000P)
显卡 Nvidia RTX 4060 laptop 内存 16G
SadTalker还有很多需要优化的地方,对显存要求较大,而且生成速度比较慢。
操作方法
1.配置python环境.
Sadtalker是Python的程序,此处我们安装Python虚拟环境管理器:anaconda。我们在往期内容中介绍过anaconda,此处不过多赘述,详情可以移步这期推送。