Stable Video Diffusion重磅发布，快来看看哪些功能

最新推荐文章于 2025-06-21 13:16:04 发布

原创

最新推荐文章于 2025-06-21 13:16:04 发布 · 1.1k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC #人工智能 #AI作画

本周，有关 OpenAI 宫斗的报道占据了Ai圈版面的主导地位，吃够了奥特曼的大瓜。我们来看看Stability AI刚发布的Stable Video Diffusion，这是一种通过对现有图像进行动画处理来生成视频的 AI 模型。基于 Stability 现有的Stable Diffusion文本到图像模型，Stable Video Diffusion 是开源或商业中为数不多的视频生成模型之一。

项目地址：https://github.com/Stability-AI/generative-models

Stable Video Diffusion是第一个以Stable Diffusion模型作为基础的影片生成模型，官方在其研究论文提到，近来研究人员在原本用于2D图像生成的潜在扩散模型（Latent Diffusion Model，LDM），加入时间层，并且使用小型、高品质的影片资料集加以训练，试图将其改造成影片生成模型。

Stability AI最新研究进一步定义出训练影片LDM的三个阶段，分别是文字到图像的预训练、影片预训练，最后则是高品质影片的微调。研究人员强调，经过良好整理的预训练资料集，对于产生高品质影片非常重要，甚至还提出一套包括标题制作和过滤策略的系统性整理流程。

研究人员也展示了在高品质资料上微调基础模型的影响，并训练出能够和闭源影片生成模型相匹敌的文字转影片模型。Stable Video Diffusion还可用于图像转影片的生成任务，并且展现出强大的动作表示能力，且适用特定相机运动的LoRA模块。主要特性:文本到视频、图像到视频14 或 25 帧，576 x 1024 分辨率、多视图生成、帧插值、支持 3D 场景、通过 LoRA 控制摄像机。

Stable Video Diffusion在以下几个方面展现出显著的优势：

1.高质量