详解Latte:全球首个开源文生视频DiT

本文正文内容转自机器之心

今年初,OpenAI发布了Sora,视频DiT 模型得到了大量的关注和讨论。实际在去年底,上海人工智能实验室的研究团队联合南洋理工大学等机构即开源了一款与 Sora 技术相似的自研模型Latte,它是全球首个开源文生视频 DiT。一起来看看研究团队的解读吧!

设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。然而,由于视频数据的高度结构化与复杂性,如何将 DiT 扩展到视频生成领域却是一个挑战,来自上海人工智能实验室的研究团队联合南洋理工大学等机构通过大规模的实验回答了这个问题。

早在去年 11 月,该团队就已经开源了一款与 Sora 技术相似的自研模型:Latte。作为全球首个开源文生视频 DiT,Latte 受到了广泛关注,并且模型设计被众多开源框架所使用与参考,如 Open-Sora Plan (PKU) 和 Open-Sora (ColossalAI)。

图片

  • 开源链接:https://github.com/Vchitect/Latte

  • 项目主页:https://maxin-cn.github.io/latte_project/

  • 论文链接:https://arxiv.org/pdf/2401.03048v1.pdf

先来看下Latte的视频生成效果。

图片

方法介绍

总体上,Latte 包含两个主要模块:预训练 VAE 和视频 DiT。预训练 VAE 编码器将视频逐帧从像素空间压缩到隐空间,视频 DiT 对隐式表征提取 token 并进行时空建模,最后 VAE 解码器将特征映射回像素空间生成视频。为了得到最优的视频质量,作者着重探究了 Latte 设计中两个重要内容,(1) 视频 DiT 模型整体结构设计以及 (2) 模型与训练细节的最优设计(The best practices)。

(1)Latte 整体模型结构设计探究

图片
图 1. Latte 模型结构及其变体
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值