CogVideoX-Fun 项目使用与启动教程
1. 项目介绍
CogVideoX-Fun 是一个视频生成管道,用于生成 AI 图像和视频,以及为 Diffusion Transformer 训练基线模型和 Lora 模型。项目支持从预训练的基线模型直接预测,生成不同分辨率、时长和帧率(FPS)的视频。此外,它还支持用户训练自己的基线和 Lora 模型,进行特定的风格转换。
2. 项目快速启动
以下是快速启动 CogVideoX-Fun 的步骤:
使用 Docker
确保你的机器上已正确安装显卡驱动和 CUDA 环境。
执行以下命令:
# 拉取镜像
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# 运行容器
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun
# 克隆代码
git clone https://github.com/aigc-apps/CogVideoX-Fun.git
# 进入 CogVideoX-Fun 目录
cd CogVideoX-Fun
# 下载权重
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model
# 请使用 huggingface 链接或 modelscope 链接下载模型。
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP
本地安装
环境检查
项目已在以下环境中验证执行:
-
Windows:
- 系统:Windows 10
- Python:python3.10 & python3.11
- PyTorch:torch2.2.0
- CUDA:11.8 & 12.1
- CUDNN:8+
- GPU:Nvidia-3060 12G & Nvidia-3090 24G
-
Linux:
- 系统:Ubuntu 20.04, CentOS
- Python:python3.10 & python3.11
- PyTorch:torch2.2.0
- CUDA:11.8 & 12.1
- CUDNN:8+
- GPU:Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G
确保磁盘有约 60GB 的可用空间(用于保存权重)。
权重
将权重放在指定的路径下:
-
通过 ComfyUI: 将模型放入 ComfyUI 权重文件夹
ComfyUI/models/Fun_Models/
-
运行自己的 Python 文件或 UI 界面:
models/ ├── Diffusion_Transformer/ │ ├── CogVideoX-Fun-V1.1-2b-InP/ │ ├── CogVideoX-Fun-V1.1-5b-InP/ │ ├── Wan2.1-Fun-14B-InP │ └── Wan2.1-Fun-1.3B-InP/ ├── Personalized_Model/ │ └── your trained trainformer model / your trained lora model (for UI load)
3. 应用案例和最佳实践
这里将提供一些应用案例和最佳实践,帮助用户更好地理解和使用 CogVideoX-Fun。
- 案例 1:如何生成不同分辨率和帧率的高质量视频。
- 案例 2:如何训练自定义的基线和 Lora 模型。
4. 典型生态项目
以下是 CogVideoX-Fun 生态系统中的典型项目:
- 项目 A:用于视频编辑的 AI 工具。
- 项目 B:基于 CogVideoX-Fun 的风格迁移应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考