Movie Gen: A Cast of Media Foundation Models

UnknownBody

于 2024-10-23 09:00:00 发布

阅读量220

点赞数 3

分类专栏： LLM Daily Multimodal 文章标签：语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/143159754

版权

LLM Daily 同时被 2 个专栏收录

1271 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

118 篇文章

订阅专栏

本文是LLM系列文章，针对《Movie Gen: A Cast of Media Foundation Models》的翻译。

电影创世纪：媒体基础模型的演员阵容

摘要
1 引言
2 概述
3 联合图像和视频生成
4 视频个性化
5 指导式精确视频剪辑
6 联合音效和音乐生成
7 相关工作
8 结论

摘要

我们介绍Movie Gen，这是一系列基础模型，可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能，例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平：文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer，其最大上下文长度为73K视频token，对应于以每秒16帧的速度生成16秒的视频。我们在架构、潜在空间、训练目标和配方、数据管理、评估协议、并行化技术和推理优化方面展示了多项技术创新和简化，使我们能够从扩展预训练数据、模型大小和训练计算中获益，以训练大规模媒体生成模型。我们希望本文能帮助研究界加快媒体生成模型的进步和创新。
本文的所有视频均在https://go.fb.me/MovieGenResearchVideos可用。

1 引言

2 概述

3 联合图像和视频生成

4 视频个性化

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。