开源的照片数字人项目——SadTalker

前言

给定一张照片和一段音频,生成张嘴说话的数字人视频。
项目主页:https://github.com/OpenTalker/SadTalker
官网推荐的指导视频:https://www.bilibili.com/video/BV1Dc411W7V6/?vd_source=78b9e11be3f62acc485bf133393ebc27
这是我制作的一个小demo——范仲淹的岳阳楼记:

范仲淹-岳阳楼记

因为该项目是2023年的,当时使用的模块版本都比较低,代码中使用的方法也是和模块对应的,所以如果没有修改代码的计划,最好忠实于原版本。
网络上看有网友表示如果音频时间太长,生成的视频会出现对不上口型的情况,建议不超过30s,有空的朋友可以测试一下。

实验环境

硬件

CPU:本项目使用的是pytorch。不像很其他多项目限制了必须使用CUDA,该项目单纯的使用CPU也可以跑,但是速度会慢很多(即使是很短的音频也要花上1-2h),而根据网络视频看,具备GPU的显卡只需要分钟级的时间。本人的显卡是英特尔,因此不幸只能选择纯CPU的方式。

软件

win11系统
anaconda

实验步骤

源代码下载

可以直接下载包含预训练模型的源代码:https://pan.baidu.com/s/1QIG5t1WIO6s-zWgxToP-9g?pwd=uo5o

环境准备

  1. 运行anaconda prompt,创建虚拟环境并激活
conda create -n sadtalker python=3.8
conda activate sadtalker
  1. 下载pytorch
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cpuonly -c pytorch

如果是其他环境(操作系统及GPU),可以在 https://pytorch.org/get-started/previous-versions/ 查看安装命令

  1. 安装ffmpeg
conda install ffmpeg
  1. 安装python模块
pip install -r requirements.txt

安装模块时,有几个坑要注意一下:
(1)直接通过requirements安装可能会报错,此时就需要一个一个安装
(2)某些模块用清华源找不到,必须从官网源下载
(3)face_alignment得改成1.3.4版本的,否则也会报错

  1. 将源代码中gfpgan\weights目录下的GFPGANv1.4.pth文件,拷贝至虚拟环境(可通过conda info命令查看active env location)目录下的Lib\site-packages\gfpgan\weights目录。

运行脚本

示例代码:

python inference.py --driven_audio C:\develop\SadTalker\material\voice1.wav --source_image C:\develop\SadTalker\material\pic1.png --still --preprocess full --enhancer gfpgan

示例中,将音频和视频文件放置在C:\develop\SadTalker\material\目录下,其中音频似乎只能是wav文件。
如果去掉--still --preprocess full,则只会生成人脸的视频,但是相应的,时间会比全身视频缩短很多(全身视频大约2小时,脸部视频大约1小时)。
等待程序跑完之后,在results目录下的文件夹里,就会生成视频的mp4文件。
ps:如果没有现成的音频,网络上通过文字转换成音频的免费网站也不少, 例如马克配音(ttps://ttsmaker.cn/),有不少音色可供选择,可以导出mp3、wav等多种格式的音频文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值