Movie Gen: A Cast of Media Foundation Models

本文是LLM系列文章,针对《Movie Gen: A Cast of Media Foundation Models》的翻译。

摘要

我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。我们在架构、潜在空间、训练目标和配方、数据管理、评估协议、并行化技术和推理优化方面展示了多项技术创新和简化,使我们能够从扩展预训练数据、模型大小和训练计算中获益,以训练大规模媒体生成模型。我们希望本文能帮助研究界加快媒体生成模型的进步和创新。
本文的所有视频均在https://go.fb.me/MovieGenResearchVideos可用。

1 引言

2 概述

3 联合图像和视频生成

4 视频个性化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值