
基于Diffusion模型的AIGC生成算法日益火热,其中文生图,图生图等图像生成技术普遍成熟,很多算法从业者开始从事视频生成算法的研究和开发,原因是视频生成领域相对空白。

AIGC视频算法发展现状
从2023年开始,AIGC+视频的新算法层出不穷,其中最直接的是把图像方面的成果引入视频领域,并结合时序信息去生成具有连续性的视频。随着Sora的出现,视频生成的效果又再次上升了一个台阶,因此有必要将去年一年到现在的视频领域进展梳理一下,为以后的视频方向的研究提供一点思路。

AIGC视频算法分类
AIGC视频算法,经过梳理发现,可以大体分为:文生视频,图生视频,视频编辑,视频风格化,人物动态化,长视频生成等方向。具体的输入和输出形式如下:
文生视频:输入文本,输出视频
图生视频:输入图片(+控制条件),输出视频
视频编辑:输入视频(+控制条件),输出视频
视频风格化:输入视频,输出视频
人物动态化:输入图片+姿态条件,输出视频
长视频生成:输入文本,输出长视频

具体算法梳理
▐ 文生视频
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
机构:清华
时间:2022.5.29
https://github.com/THUDM/CogVideo.
简单介绍:基于两阶段的transformer(生成+帧间插值)来做文生视频

IMAGEN VIDEO
机构:Google
时间:2022.10.5
简单介绍:基于google的Imagen来做的时序扩展,而Imagen和Imagen video都没有开源

Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators
机构:Picsart AI Resarch
时间:2023.3.23
https://github.com/Picsart-AI-Research/Text2Video-Zero
简单介绍:基于图像diffusion model引入corss-frame attention来做时序建模,其次通过显著性检测来实现背景平滑。

MagicVideo: Efficient Video GenerationWith Latent Diffusion Models
机构:字节
时间:2023.5.11
简单介绍:直接将图像SD架构扩展成视频,增加了时序信息

AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
机构:上海 AI Lab
时间:2023.7.11
https://animatediff.github.io/
简单介绍:基于图像diffusion model,训练一个运动建模模块,来学习运动信息

VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
机构:腾讯 AI Lab
时间:2023.10.30
https://ailab-cvc.github.io/videocrafter
简单介绍:基于diffusion模型,网络架构采用空间和时序attention操作来实现视频生成

▐ 图生视频
AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
机构:上海 AI Lab
时间:2023.7.11
https://animatediff.github.io/
VideoCrafter1: Open Diffusion Models for High-Quality Video Generation
机构:腾讯 AI Lab
时间:2023.10.30
https://ailab-cvc.github.io/videocrafter
stable video diffusion
机构:Stability AI
时间:2023.11.21
https://stabil

最低0.47元/天 解锁文章
2万+





