照片开口说话活起来--stdtalker部署搭建

最新推荐文章于 2024-09-26 15:00:07 发布

TOo斌斌很有礼oOT

最新推荐文章于 2024-09-26 15:00:07 发布

阅读量277

点赞数 6

分类专栏： AIGC 文章标签： linux python AIGC

本文链接：https://blog.youkuaiyun.com/ltbweber/article/details/139622903

版权

AIGC 专栏收录该内容

12 篇文章

订阅专栏

SadTalker简介

一款图像和音频深度学习模型，实现头像照片配合音频生成视频

功能总览

详细对应参数可看文章最后参数图片

功能点	可行性	备注
加载图片	OK
加载音频	OK
加载参考视频	OK	可以学习视频里的面部表情和头部动作幅度
自动截取头像	OK
截取精细头像	OK
全身	OK
精细全身	OK
上半身	OK
头像左右转动	OK
头像上下转动	OK
视频增强	OK
表幅度调节	OK	值越大，表情越夸张

项目搭建

本教程基于ubantu系统，并使用N卡，A卡目前没测试

基础所需软件安装，这些基础的不再一一叙述，自行百度安装吧，显卡驱动需要安装你显卡对应的，cuda也要安装对应版本

显卡驱动，Git, ffmpeg，Anaconda，cuda，

克隆项目：

	git clone https://github.com/OpenTalker/SadTalker.git

进入源码文件夹

	cd SadTalker

创建conda虚拟环境

	conda create -n sadtalker python=3.9     注：python版本最好为3.8或者3.9

激活虚拟环境

	conda activate sadtalker

安装torch，一个深度学习框架注：cu113是对应的cuda版本，如果你得cuda版本是12.2，就写cu122

	pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

安装项目运行所需的必要依赖组件注：后面可以指定自己想要的pip源地址，下面为清华源，如需其他可自行更该

	pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple/

模型下载以及设置

	可从github上搜索下载stdtalker相关模型，或者去我整理的[百度网盘](https://pan.baidu.com/s/1iNPQP0PDN0JyoFUqVqEJrQ?pwd=8gyk)下载

创建模型文件夹

	在项目根目录下创建checkpoints文件夹，并把下载的模型里的相关模型解压到此文件夹下，下载的weights模型文件放到gfgan/weights文件夹中即可

运行sadtalker源码

	①：进入源码文件夹：cd sadtalker
	②：进入虚拟环境：conda activate stdtalker
	③：运行代码进行推理，examples文件夹内有测试资源，可以加—still参数调整生成效果
		python inference.py --driven_audio ./examples/driven_audio/chinese_poem2.wav --source_image ./examples/source_image/full_body_2.png  --result_dir ./examples/ref_video --still --preprocess full --enhancer gfpgan
	④：运行过程中如有报错，请自行解决吧，不同人部署的情况不一样，这个没办法...

主要参数说明

	 	–-driven_audio：音频的路径位置，具体到某个音频，wav格式
	  	-–source_image：视频或者图片路径，具体到某个图像或者视频
	  	-–result_dir：结果视频生成的位置，具体到某个文件夹

其余参数一览，或直接访问github项目地址查看
详细参数图表
我所做出的效果视频：

正常

左右转动

上下转动

到此，项目搭建结束，祝你玩的愉快，做出自己想要的视频