HunyuanPortrait 开源项目最佳实践教程
1. 项目介绍
HunyuanPortrait 是一个基于扩散模型的开源项目,用于生成逼真且时间连贯的肖像动画。该框架通过解耦身份和运动,使用预训练的编码器将驱动视频中的表情和姿态编码为隐式控制信号。这些控制信号通过基于注意力的适配器注入到一个稳定的扩散主干网络中,从而实现对单张参考图像的详细且风格多变的动画生成。HunyuanPortrait 在控制性和连贯性方面优于现有的方法。
2. 项目快速启动
环境要求
- NVIDIA 3090 GPU(支持CUDA)
- 测试操作系统:Linux
安装步骤
-
克隆项目仓库:
git clone https://github.com/Tencent-Hunyuan/HunyuanPortrait
-
安装依赖:
pip3 install torch torchvision torchaudio pip3 install -r requirements.txt
-
下载预训练模型和其他文件:
pip3 install "huggingface_hub[cli]" cd pretrained_weights huggingface-cli download --resume-download stabilityai/stable-video-diffusion-img2vid-xt --local-dir . --include "*.json" wget -c https://huggingface.co/LeonJoe13/Sonic/resolve/main/yoloface_v5m.pt wget -c https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt/resolve/main/vae/diffusion_pytorch_model.fp16.safetensors -P vae wget -c https://huggingface.co/FoivosPar/Arc2Face/resolve/da2f1e9aa3954dad093213acfc9ae75a68da6ffd/arcface.onnx huggingface-cli download --resume-download tencent/HunyuanPortrait --local-dir hyportrait
-
运行示例脚本:
bash demo.sh video_path="your_video.mp4" image_path="your_image.png"
或者直接运行Python脚本:
python inference.py \ --config config/hunyuan-portrait.yaml \ --video_path $video_path \ --image_path $image_path
3. 应用案例和最佳实践
应用案例
- 肖像唱歌:
sing_1.mp4
- 肖像表演:
act_1.mp4
- 肖像表情:
emoji_1.mp4
最佳实践
- 确保输入的视频和图像质量较高,以获得更好的动画效果。
- 调整配置文件中的参数,以适应不同的动画风格和需求。
- 在训练和推理过程中监控GPU的使用情况,以避免资源不足。
4. 典型生态项目
- SVD(Stable Video Diffusion)
- DiNOv2
- Arc2Face
- YoloFace
在应用HunyuanPortrait时,可以参考上述生态项目,以获取更多的功能和优化方案。同时,也鼓励用户在使用时引用相关的工作,并在可能的情况下贡献代码和改进建议。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考