CogVideoX-Fun 项目使用与启动教程-优快云博客

CogVideoX-Fun 项目使用与启动教程

CogVideoX-Fun 📹 A more flexible CogVideoX that can generate videos at any resolution and creates videos from images. 项目地址: https://gitcode.com/gh_mirrors/co/CogVideoX-Fun

1. 项目介绍

CogVideoX-Fun 是一个视频生成管道，用于生成 AI 图像和视频，以及为 Diffusion Transformer 训练基线模型和 Lora 模型。项目支持从预训练的基线模型直接预测，生成不同分辨率、时长和帧率（FPS）的视频。此外，它还支持用户训练自己的基线和 Lora 模型，进行特定的风格转换。

2. 项目快速启动

以下是快速启动 CogVideoX-Fun 的步骤：

使用 Docker

确保你的机器上已正确安装显卡驱动和 CUDA 环境。

执行以下命令：

# 拉取镜像
docker pull mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# 运行容器
docker run -it -p 7860:7860 --network host --gpus all --security-opt seccomp:unconfined --shm-size 200g mybigpai-public-registry.cn-beijing.cr.aliyuncs.com/easycv/torch_cuda:cogvideox_fun

# 克隆代码
git clone https://github.com/aigc-apps/CogVideoX-Fun.git

# 进入 CogVideoX-Fun 目录
cd CogVideoX-Fun

# 下载权重
mkdir models/Diffusion_Transformer
mkdir models/Personalized_Model

# 请使用 huggingface 链接或 modelscope 链接下载模型。
# CogVideoX-Fun
# https://huggingface.co/alibaba-pai/CogVideoX-Fun-V1.1-5b-InP
# https://modelscope.cn/models/PAI/CogVideoX-Fun-V1.1-5b-InP
# Wan
# https://huggingface.co/alibaba-pai/Wan2.1-Fun-14B-InP
# https://modelscope.cn/models/PAI/Wan2.1-Fun-14B-InP

本地安装

环境检查

项目已在以下环境中验证执行：

Windows:
- 系统：Windows 10
- Python：python3.10 & python3.11
- PyTorch：torch2.2.0
- CUDA：11.8 & 12.1
- CUDNN：8+
- GPU：Nvidia-3060 12G & Nvidia-3090 24G
Linux:
- 系统：Ubuntu 20.04, CentOS
- Python：python3.10 & python3.11
- PyTorch：torch2.2.0
- CUDA：11.8 & 12.1
- CUDNN：8+
- GPU：Nvidia-V100 16G & Nvidia-A10 24G & Nvidia-A100 40G & Nvidia-A100 80G

确保磁盘有约 60GB 的可用空间（用于保存权重）。

权重

将权重放在指定的路径下：

通过 ComfyUI：将模型放入 ComfyUI 权重文件夹 ComfyUI/models/Fun_Models/

运行自己的 Python 文件或 UI 界面：

models/
├── Diffusion_Transformer/
│   ├── CogVideoX-Fun-V1.1-2b-InP/
│   ├── CogVideoX-Fun-V1.1-5b-InP/
│   ├── Wan2.1-Fun-14B-InP
│   └── Wan2.1-Fun-1.3B-InP/
├── Personalized_Model/
│   └── your trained trainformer model / your trained lora model (for UI load)