REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION学习笔记

REUSE AND DIFFUSE: ITERATIVE DENOISING FORTEXT-TO-VIDEO GENERATION)学习笔记


在这里插入图片描述
motivation:
由于计算和内存资源的限制,将LDM用于t2v任务挑战性较大
单个LDM通常只能生成非常有限的视频帧数,且需要额外的训练成本和帧级抖动
contribution:
Reuse and Diffuse(重用和扩散),根据LDM已经生成的帧生成更多的帧(以具有少量帧的初始视频片段为条件,通过重用原始潜在特征并遵循先前的扩散过程来迭代生成额外的帧。)
对autoencoder插入时间层进行finetuning实现时间一致性
还提出了一套策略,用于组合视频文本数据

method

stable diffusion在t2i任务中表现较好,视频合成任务会加载预训练的LDM(Variational Auto-Encoder (VAE)和U-Net)
通过注入图中虚线框标记的temporal layer(时间层)来适应原始的U-Net,进行图像扩散到视频合成的转变。
在这里插入图片描述
temporal layer分为Temp-Conv(3D卷积层)、Temp-Attn(temporal attention layers)
除了这两个层,其他大多数网络层都使用stable diffusion的预训练模型权重进行初始化
Temp-Conv 和 Temp-Attn 的参数随机初始化
在这里插入图片描述
2D ResNet膨胀为3D ResNet
网络层中只有一部分是可训练的,以实现有效的训练,之前的工作,使用图像数据分别微调空间层和视频数据来训练时间层
本工作,以端到端的方式使用纯视频数据进行训练,因为图像数据被转换为伪视频,显示出与原始视频数据相似的时间一致性

视频数据

在这里插入图片描述
图像-文本数据通过随机缩放和平移来生成多个图像,并进一步组合成伪视频。
短视频的数据集(Kinetics-700),根据每个视频的分类标签给出合适的文本caption。
包含多个场景的长视频(VideoLT),segment-then-caption strategy,先分段在加字幕(Mini-GPT4)。

长视频生成

在这里插入图片描述
FNR:为了生成平滑的视频,迭代地重用初始噪声,但每次以相反的顺序。
PNS:为了减轻视频内容循环程度,
z T i , j = { z T i − 1 , N − j − 1 if  j < M α 1 + α 2 z T i − 1 , N − j − 1 + ϵ i , j otherwise , ϵ i , j ∼ N ( 0 , 1 1 + α 2 I ) , α ≥ 0 \mathbf{z}_T^{i,j}=\begin{cases}\mathbf{z}_T^{i-1,N-j-1}&\text{if}\text{ }j<M\\\frac{\alpha}{\sqrt{1+\alpha^2}}\mathbf{z}_T^{i-1,N-j-1}+\epsilon^{i,j}&\text{otherwise}\end{cases},\epsilon^{i,j}\sim\mathcal{N}(0,\frac{1}{1+\alpha^2}\mathbf{I}),\alpha\geq0 zTi,j={zTi1,Nj11+α2 αzTi1,Nj1+ϵi,jif j<Motherwise,ϵi,jN(0,1+α21I),α0
M帧为参考帧,在参考帧之外加额外的随机噪声, α \alpha α越小,随机噪声占的比率越大
DSG:提高帧之间的连续性,主要是视频clip之间的连续性, z 0 i , N − 1 \mathbf{z}_0^{i,N-1} z0i,N1 z 0 i + 1 , 0 \mathbf{z}_0^{i+1,0} z0i+1,0
z t − 1 i , j = { z t − 1 i − 1 , N − j − 1 if  t > ( 1 − β ) T + β T j M DDIM ( z t i , j , t ) otherwise , β ∈ [ 0 , 1 ] \mathbf{z}_{t-1}^{i,j}=\begin{cases}\mathbf{z}_{t-1}^{i-1,N-j-1}&\text{if}\text{ }t>(1-\beta)T+\frac{\beta Tj}{M}\\\text{DDIM}(\mathbf{z}_t^{i,j},t)&\text{otherwise}\end{cases},\quad\beta\in[0,1] zt1i,j={zt1i1,Nj1DDIM(zti,j,t)if t>(1β)T+MβTjotherwise,β[0,1]
前几帧重用上一视频clip的latent futures, β \beta β越小,重用程度越小

experiment

由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观

在这里插入图片描述
使用伪视频微调和不使用伪视频微调
与使用静态图像仅训练空间层相比,由静态图像的随机缩放和平移产生的伪视频有助于提高时间一致性但损害视觉外观。
在这里插入图片描述
对M(参考帧数量)、 α \alpha α β \beta β消融实验
越大,重用的越多,量化指标较高,视频循环严重

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值