《Hallo3项目安装与配置指南》
1. 项目基础介绍
Hallo3 是一个开源项目,它能够通过视频扩散变压器技术,实现基于音频输入的高度动态和逼真的肖像图像动画。该项目主要由 Python 语言开发,旨在为用户提供一种新的图像动画生成方法。
2. 关键技术与框架
该项目使用了一些先进的技术和框架,主要包括:
- 视频扩散变压器(Video Diffusion Transformer):用于生成图像动画的核心技术。
- CogVideo-5B I2V 模型:作为图像动画生成的基础模型。
- PyTorch:深度学习框架,用于模型的训练和推理。
- Mediapipe:用于人脸检测和标记的框架。
- FFmpeg:用于处理视频和音频文件。
3. 安装与配置
准备工作
在开始安装之前,请确保您的系统满足以下要求:
- 操作系统:Ubuntu 20.04/Ubuntu 22.04
- GPU:已测试的 GPU 包括 H100
- CUDA 版本:12.1
确保您的系统中已安装了 Git、Python 3.10 和 CUDA。
安装步骤
-
克隆项目仓库 在您的终端中执行以下命令以克隆仓库:
git clone https://github.com/fudan-generative-vision/hallo3.git cd hallo3
-
创建 Conda 环境 创建一个名为
hallo
的 Conda 环境,并激活它:conda create -n hallo python=3.10 conda activate hallo
-
安装依赖 使用以下命令安装项目所需的 Python 包:
pip install -r requirements.txt
-
安装 FFmpeg 使用以下命令安装 FFmpeg:
apt-get install ffmpeg
-
下载预训练模型 您可以使用
huggingface-cli
下载预训练模型,或者从源仓库单独下载:pip install "huggingface_hub[cli]" huggingface-cli download fudan-generative-ai/hallo3 --local-dir ./pretrained_models
-
准备推理数据 确保参考图像的宽高比为 1:1 或 3:2,驱动音频为 WAV 格式,且为英文,背景音乐可接受,但人声需清晰。
-
运行推理
- 运行 Gradio UI:
python hallo3/app.py
- 批量推理:
bash scripts/inference_long_batch.sh ./examples/inference/input.txt ./output
- 运行 Gradio UI:
以上就是《Hallo3项目安装与配置指南》的详细内容,按照以上步骤操作,您应该能够成功安装和配置该项目。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考