照片开口说话活起来--stdtalker部署搭建

SadTalker简介

一款图像和音频深度学习模型,实现头像照片配合音频生成视频

功能总览

详细对应参数可看文章最后参数图片
功能点可行性备注
加载图片OK
加载音频OK
加载参考视频OK可以学习视频里的面部表情和头部动作幅度
自动截取头像OK
截取精细头像OK
全身OK
精细全身OK
上半身OK
头像左右转动OK
头像上下转动OK
视频增强OK
表幅度调节OK值越大,表情越夸张

项目搭建

本教程基于ubantu系统,并使用N卡,A卡目前没测试

基础所需软件安装,这些基础的不再一一叙述,自行百度安装吧,显卡驱动需要安装你显卡对应的,cuda也要安装对应版本

显卡驱动,Git, ffmpeg,Anaconda,cuda,

克隆项目:

	git clone https://github.com/OpenTalker/SadTalker.git

进入源码文件夹

	cd SadTalker

创建conda虚拟环境

	conda create -n sadtalker python=3.9     注:python版本最好为3.8或者3.9

激活虚拟环境

	conda activate sadtalker

安装torch,一个深度学习框架 注:cu113是对应的cuda版本,如果你得cuda版本是12.2,就写cu122

	pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113

安装项目运行所需的必要依赖组件 注:后面可以指定自己想要的pip源地址,下面为清华源,如需其他可自行更该

	pip install -r requirements.txt  -i https://pypi.tuna.tsinghua.edu.cn/simple/

模型下载以及设置

	可从github上搜索下载stdtalker相关模型,或者去我整理的[百度网盘](https://pan.baidu.com/s/1iNPQP0PDN0JyoFUqVqEJrQ?pwd=8gyk)下载

创建模型文件夹

	在项目根目录下创建checkpoints文件夹,并把下载的模型里的相关模型解压到此文件夹下,下载的weights模型文件放到gfgan/weights文件夹中即可

运行sadtalker源码

	①:进入源码文件夹:cd sadtalker
	②:进入虚拟环境:conda activate stdtalker
	③:运行代码进行推理,examples文件夹内有测试资源,可以加—still参数调整生成效果
		python inference.py --driven_audio ./examples/driven_audio/chinese_poem2.wav --source_image ./examples/source_image/full_body_2.png  --result_dir ./examples/ref_video --still --preprocess full --enhancer gfpgan
	④:运行过程中如有报错,请自行解决吧,不同人部署的情况不一样,这个没办法...

主要参数说明

	 	–-driven_audio:音频的路径位置,具体到某个音频,wav格式
	  	-–source_image:视频或者图片路径,具体到某个图像或者视频
	  	-–result_dir:结果视频生成的位置,具体到某个文件夹

其余参数一览,或直接访问github项目地址查看
详细参数图表
我所做出的效果视频:

正常

左右转动

上下转动

到此,项目搭建结束,祝你玩的愉快,做出自己想要的视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值