简介
在开源社区,视频生成技术正变得越来越受欢迎。今天,我们要介绍一个专为单GPU设备优化的开源视频生成模型——victorchall/genmoai-smol
。这个项目是Genmoai的txt2video模型的一个工作进展分支,它被优化以减少显存占用,使得在资源有限的设备上也能进行视频创作。
项目特点
- 显存占用优化:对于拥有48GB显存的用户来说,这个模型已经相当能干了。现在,它应该能够在只有24GB显存的GPU上运行。
- 视频帧数和分辨率建议:对于24GB VRAM的用户,建议不要超过61帧,并尝试使用640x480的分辨率。显存使用主要与帧数和分辨率成比例。推理步骤不会改变显存使用,但创建视频的时间会随着步骤的增加而增加。100步似乎是可行的,并且可能需要15-25分钟。原始源使用了200步,但这将需要大约两倍的时间。
- 系统要求:如果你的系统已经在运行桌面时使用显存,你可能需要进一步降低设置。
- 技术细节:主要通过在不需要时将vae、te、dit等移回CPU,并在所有地方使用bfloat16来优化。这可能需要大量的系统RAM(约64GB),或者如果系统RAM <= 32G,可能会因为需要使用页面文件而变得额外慢,因为T5和DIT仍然相当大。模型来回移动的时间与在DIT步骤中花费的推理时间相比是相当小的。
未来优化
- 进一步优化:如果有空闲时间,可能会尝试使用bitsandbytes NF4进一步优化,这可能会将其降低到16GB或更少,假设它不会破坏输出质量。也可能会尝试注入第一帧图像,使其能够进行img2video的转换。
安装与运行
安装
-
使用
uv
安装:bash
git clone https://github.com/genmoai/models cd models pip install uv uv venv .venv source .venv/bin/activate uv pip install -e .
-
下载权重: 从Hugging Face或通过磁力链接下载权重到你的计算机上的一个文件夹。
运行
-
使用gradio UI启动:
bash
python3 -m mochi_preview.gradio_ui --model_dir "<path_to_downloaded_directory>"
-
直接从CLI生成视频:
bash
python3 -m mochi_preview.infer --prompt "你的提示" --seed 1710977262 --cfg-scale 4.5 --model_dir "<path_to_downloaded_directory>"
将
<path_to_downloaded_directory>
替换为你的模型目录路径。
模型架构
- Mochi 1:这是一个具有高保真度运动和强提示遵循性的最先进的视频生成模型。这个模型显著缩小了封闭和开放视频生成系统之间的差距。我们在Apache 2.0许可下发布这个模型。你可以在我们的playground上免费试用这个模型。
- AsymmDiT:这是一个10亿参数的扩散模型,建立在我们新颖的Asymmetric Diffusion Transformer(AsymmDiT)架构上。它是完全从头开始训练的,是有史以来公开发布的最大的视频生成模型。此外,我们发布了一个包括高效上下文并行实现的推理框架。