使用Stable Diffusion Videos项目生成AI视频动画教程

滕妙奇

于 2025-06-09 09:03:10 发布

阅读量323

点赞数 4

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00212/article/details/148524011

使用Stable Diffusion Videos项目生成AI视频动画教程

stable-diffusion-videos Create 🔥 videos with Stable Diffusion by exploring the latent space and morphing between text prompts 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-videos

项目概述

Stable Diffusion Videos是一个基于Stable Diffusion模型的创新项目，它能够通过插值技术在潜在空间中生成平滑过渡的视频动画。该项目提供了两种主要功能：

基于同一提示词生成不同变体的视频
在不同文本提示之间实现平滑过渡的视频效果

环境准备

安装依赖

首先需要安装项目依赖包，建议在Python虚拟环境中进行操作：

pip install git+https://github.com/nateraw/stable-diffusion-videos

硬件要求

由于Stable Diffusion模型的计算需求较高，建议使用以下配置：

NVIDIA GPU (推荐RTX 3060及以上)
CUDA 11.x
至少8GB显存

核心功能实现

初始化管道

项目核心是StableDiffusionWalkPipeline类，它扩展了标准的Stable Diffusion管道，增加了视频生成功能：

import torch
from stable_diffusion_videos.stable_diffusion_pipeline import StableDiffusionWalkPipeline

pipeline = StableDiffusionWalkPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4",
    torch_dtype=torch.float16,
    revision="fp16",
).to("cuda")

基本视频生成

最简单的使用方式是调用walk方法生成两个提示词之间的过渡视频：

video_path = pipeline.walk(
    prompts=['a cat', 'a dog'],
    seeds=[42, 1337],
    fps=5,
    num_interpolation_steps=5,
    height=512,
    width=512,
)

参数说明：

prompts: 要过渡的文本提示列表
seeds: 对应每个提示的随机种子
fps: 输出视频的帧率
num_interpolation_steps: 插值步数，影响视频平滑度
height/width: 图像尺寸(推荐64的倍数)

进阶功能：音乐视频

项目还支持将生成的视频与音频同步，创建音乐视频效果：

audio_offsets = [7, 9]  # 音乐时间点(秒)
fps = 8
num_interpolation_steps = [(b-a)*fps for a,b in zip(audio_offsets, audio_offsets[1:])]

video_path = pipeline.walk(
    prompts=['blueberry spaghetti', 'strawberry spaghetti'],
    seeds=[42, 1337],
    num_interpolation_steps=num_interpolation_steps,
    audio_filepath='music/thoughts.mp3',
    audio_start_sec=audio_offsets[0],
    fps=fps,
    batch_size=4,
)