52个AIGC视频生成算法模型介绍

原创

于 2024-03-25 16:20:51 发布 · 7.9k 阅读

63 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC

基于Diffusion模型的AIGC生成算法日益火热，其中文生图，图生图等图像生成技术普遍成熟，很多算法从业者开始从事视频生成算法的研究和开发，原因是视频生成领域相对空白。

AIGC视频算法发展现状

从2023年开始，AIGC+视频的新算法层出不穷，其中最直接的是把图像方面的成果引入视频领域，并结合时序信息去生成具有连续性的视频。随着Sora的出现，视频生成的效果又再次上升了一个台阶，因此有必要将去年一年到现在的视频领域进展梳理一下，为以后的视频方向的研究提供一点思路。

AIGC视频算法分类

AIGC视频算法，经过梳理发现，可以大体分为：文生视频，图生视频，视频编辑，视频风格化，人物动态化，长视频生成等方向。具体的输入和输出形式如下：

文生视频：输入文本，输出视频
图生视频：输入图片（+控制条件），输出视频
视频编辑：输入视频（+控制条件），输出视频
视频风格化：输入视频，输出视频
人物动态化：输入图片+姿态条件，输出视频
长视频生成：输入文本，输出长视频

具体算法梳理

▐ 文生视频

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

机构：清华

时间：2022.5.29

https://github.com/THUDM/CogVideo.

简单介绍：基于两阶段的transformer（生成+帧间插值）来做文生视频

IMAGEN VIDEO

机构：Google

时间：2022.10.5

简单介绍：基于google的Imagen来做的时序扩展，而Imagen和Imagen video都没有开源

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

机构：Picsart AI Resarch

时间：2023.3.23

https://github.com/Picsart-AI-Research/Text2Video-Zero

简单介绍：基于图像diffusion model引入corss-frame attention来做时序建模，其次通过显著性检测来实现背景平滑。

MagicVideo: Efficient Video GenerationWith Latent Diffusion Models

机构：字节

时间：2023.5.11

简单介绍：直接将图像SD架构扩展成视频，增加了时序信息

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构：上海 AI Lab

时间：2023.7.11

https://animatediff.github.io/

简单介绍：基于图像diffusion model，训练一个运动建模模块，来学习运动信息

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构：腾讯 AI Lab

时间：2023.10.30

https://ailab-cvc.github.io/videocrafter

简单介绍：基于diffusion模型，网络架构采用空间和时序attention操作来实现视频生成

▐ 图生视频

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

机构：上海 AI Lab

时间：2023.7.11

https://animatediff.github.io/

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

机构：腾讯 AI Lab

时间：2023.10.30

https://ailab-cvc.github.io/videocrafter

stable video diffusion

机构：Stability AI

时间：2023.11.21

https://stabil

最低0.47元/天解锁文章

52个AIGC视频生成算法模型介绍

▐ 文生视频

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

IMAGEN VIDEO

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators

MagicVideo: Efficient Video GenerationWith Latent Diffusion Models

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

▐ 图生视频

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation

stable video diffusion

3 条评论