Hallo2 项目使用与启动教程
1. 项目介绍
Hallo2 是由复旦大学团队开发的一个开源项目,致力于实现长时 duration 和高分辨率音频驱动的肖像图像动画。该技术能够将音频与静态图像结合,生成具有说话口型和表情的动态肖像视频,广泛应用于虚拟助手、视频制作等领域。
2. 项目快速启动
环境准备
- 操作系统:Ubuntu 20.04/Ubuntu 22.04
- GPU:NVIDIA A100(测试通过)
- CUDA 版本:11.8
安装步骤
-
克隆项目代码:
git clone https://github.com/fudan-generative-vision/hallo2.git cd hallo2
-
创建 Conda 环境:
conda create -n hallo python=3.10 conda activate hallo
-
安装依赖包:
pip install torch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt
-
安装 ffmpeg:
apt-get install ffmpeg
-
下载预训练模型:
pip install huggingface_hub huggingface-cli download fudan-generative-ai/hallo2 --local-dir ./pretrained_models
或从各自源仓库下载所需模型,并按以下目录结构组织:
./pretrained_models/ ...
运行示例
-
运行长时动画脚本:
python scripts/inference_long.py --config ./configs/inference/long.yaml
根据需要,修改配置文件中的
source_image
、driving_audio
和save_path
参数。 -
运行高分辨率动画脚本:
python scripts/video_sr.py --input_path [input_video] --output_path [output_dir] --bg_upsampler realesrgan --face_upsample -w 1 -s 4
替换
[input_video]
和[output_dir]
为实际的输入视频路径和输出目录。
3. 应用案例和最佳实践
- 输入图像应为正方形裁剪,人脸占据图像的 50%-70%。
- 输入音频应为清晰英语发音的 WAV 格式文件,背景音乐可接受。
- 模型训练数据集为英文,因此非英语音频可能无法获得最佳效果。
4. 典型生态项目
目前Hallo2项目的主要生态包括但不限于以下方面:
- 虚拟助手: 为虚拟助手生成逼真的动态表情。
- 视频内容制作: 为视频内容创作者提供动态化图像处理的工具。
- 教育与演示: 用于教育演示和学术研究中的人物动画需求。
以上是Hallo2项目的使用与启动教程,希望对您有所帮助。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考