ComfyUI 教程：svd图生视频

最新推荐文章于 2025-11-14 08:45:35 发布

原创最新推荐文章于 2025-11-14 08:45:35 发布 · 1.5k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #comfyui #图生视频

AI绘画之 ComfyUi 专栏收录该内容

10 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

ComfyUI 是一个基于 Stable Diffusion 的AI绘画创作工具，最近发展势头特别迅猛，但是 ComfyUI 的上手门槛有点高，用户需要对 Stable Diffusion 以及各种数字技术的原理有一定的了解才行。这个系列将会介绍 ComfyUI 的一些基础概念和使用方法，让大家更快的掌握 ComfyUI 的使用技巧，创作出自己独特的艺术作品。

本文继续分享 ComfyUI 的使用方法：图生视频，也就是根据图片生成视频，使用的模型是SVD。

我之前的很多萌宠图片就是用它生成的，阅读量还不错：
在这里插入图片描述

SVD介绍 (图片到视频)

SVD是由 Stable Diffusion 的创作者 Stability AI 公司开源发布的。

SVD的全称是 Stable Video Diffusion，也就是稳定视频扩散的意思，目前最新版本是1.1。这个模型以静止图像作为条件帧，并从中生成视频，目前还不支持使用提示词引导。默认参数下生成的结果是分辨率为1024x576的25帧视频，不过ComfyUI中实测也可以生成多种分辨率和更长时长的视频。

SVD既可用于非商业用途，也可用于商业用途。你可以在许可下使用此模型进行非商业或研究用途，不过大家也要注意遵守相关法律和规定，并确保不侵犯他人的知识产权，具体使用许可协议可以看这里：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1
SVD官方主页： Huggingface | | Stability.ai || 论文地址
huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion
SVD开源代码：Github（含其他项目） || Huggingface
在Comfyui使用： ComfyUI国内下载 | SVD模型下载 | | 官网下载(Github)

安装ComfyUI

参考本人comfyui专栏安装手册

使用SVD

下载SVD模型
官方模型下载地址：https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1
在这里插入图片描述
目前huggingface无法下载stable-video-diffusion-img2vid-xt-1-1/，使用https://www.modelscope.cn/models/cjc1887415157/stable-video-diffusion-img2vid-xt-1-1/files

需要下载的文件名称：svd.safetensors/svd_image_decoder.safetensors
其他可下载
svd_xt.safetensors 用此模型生产失败，改用下面这个可以
svd_xt_image_decoder.safetensors

下载后放到这个目录下：ComfyUI/models/checkpoints

使用SVD工作流
SVD的工作流比较简单，大家只要在“加载”中加载这个工作流就行了，不需要特别安装插件，工作流领取方式见文末。

我这里再做一个简单的标注，让大家了解其中的原理，并配置记得参数。

1、加载SVD模型，下载上一步介绍的模型到指定的位置，就可以在这里选择到。部署模型后请注意刷新页面，让节点尽快发现到模型。

2、上传图片，这里没什么限制，上传自己喜欢的就行了。SVD对风景或者移动物体图片的视频生成效果比较好，人物图片生成视频时需要控制动作幅度，否则容易崩溃。

3、设置帧数，这个参数影响视频的时长，默认值是25。因为默认的帧率是6，2秒就是12，4秒24。

4、设置帧率，帧率就是每秒的画面数，帧率越高视频越连贯，建议先从默认的6开始，逐步上调，看效果能否满意。

5、动态bucketID，这个参数控制视频中主体的动作幅度，值越小动作变化越小，以人或动物为主体时一定要设置为较小的值，否则容易崩溃。

参数说明

cfg: 从最小到最大，以适应视频不断变化的画面
高了，会更稳定；低了，会更自由。自己琢磨
在这里插入图片描述

增强越高视频与初始值的差异越大

生成视频

最后点击“添加提示词队列”，静待视频生成就好了，生成需要的时间取决于你的机器性能、视频的分辨率和帧数。

2023年11月21日由 Stability AI 开源2个图片到视频模型(“Stable Video Diffusion”（稳定视频扩散模型)
它将静止图像（still image）作为条件帧(conditioning frame)，并从中生成视频分辨率（1024x576）。

上传已有1张图片，生成相关的视频片段、生成视频长度2-5秒，帧率 3-30帧每秒，
串联一个Stable-XL模型，生成图片后，再生成视频 (文字到图片再到视频)
在这里插入图片描述

模型的缺点(不能干的事情)？

生成的视频相当短（<=4秒），并且该模型没有实现完美的真实感。
该模型可能生成没有运动的视频，或者生成非常慢的相机平移(没变化)。
不能直接文本控制模型 (需要串联其他模型)。
该模型无法呈现清晰的文本(legible text)(让艺术字动起来)。
一般来说，人脸和人物可能无法正确生成。
模型的自动编码部分是有损的（lossy）。

工作流

Stable-XL生成图片再生成视频(Text2Img2Video)
工作流文件：链接：https://pan.baidu.com/s/1CvyGmUibreM8SM7AFjt1uA?pwd=0125
在这里插入图片描述
第一次初始化+运行示例，在3090Ti上花费 209.35秒
拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云
photograph beautiful scenery nature mountains alps river rapids snow sky cumulus clouds

官方工作流跑图
在这里插入图片描述

第二次花费生成图片（6秒）+视频（花费70秒）
题词来源于论文图17

一艘悠闲地沿着塞纳河航行的船，背景是文森特·梵高的埃菲尔铁塔
题词

A boat sailing leisurely along the Seine River with the Eiffel Tower in background by Vincent van Gogh

在这里插入图片描述

一只独角兽在一个神奇的小树林里，非常详细

A unicorn in a magical grove, extremely detailed

使用上传的图片生成视频?

您可能感兴趣的与本文相关的镜像

ComfyUI

AI应用

ComfyUI

ComfyUI是一款易于上手的工作流设计工具，具有以下特点：基于工作流节点设计，可视化工作流搭建，快速切换工作流，对显存占用小，速度快，支持多种插件，如ADetailer、Controlnet和AnimateDIFF等