Stable Diffusion 本身是图像生成模型,但结合扩展工具或变体模型可以实现视频生成功能。以下是目前主流的实现方法和具体操作步骤:
一、使用 Stable Video Diffusion (SVD) 生成视频
特点:官方推出的视频生成模型,支持图生视频(14或25帧),效果连贯性较好,但需要较高显存(建议48G以上)。
操作步骤:
环境准备:
安装 Python 3.10+ 和 PyTorch 2.0+,确保 CUDA 环境正常。
下载模型文件:
从 Hugging Face 下载 stable-video-diffusion-img2vid-xt 模型权重和配置文件(如 svd_xt.yaml )。
下载 CLIP 模型 ViT-L-14.pt 用于图像预处理。
代码配置:
示例代码(需参考官方GitHub调整)
from PIL import Image
from generative_models import StableVideoDiffusionPipeline
pipe = StableVideoDiffusionPipeline.from_pretrained(
“path/to/svd_xt”,
torch_dtype=torch.float16,
variant=“fp16”
)
pipe.enable_model_cpu_offload() # 显存不足时启用
image = Image.open(“input.jpg”).resize((1024, 576)) # 调整图片尺寸
frames = pi