本文是LLM系列文章,针对《Movie Gen: A Cast of Media Foundation Models》的翻译。
电影 创世纪:媒体基础模型的演员阵容
摘要
我们介绍Movie Gen,这是一系列基础模型,可以生成具有不同宽高比和同步音频的高质量1080p高清视频。我们还展示了其他功能,例如基于精确指令的视频编辑和基于用户图像的个性化视频生成。我们的模型在多个任务上设定了最新的技术水平:文本到视频合成、视频个性化、视频编辑、视频到音频生成和文本到音频生成。我们最大的视频生成模型是一个30B参数transformer,其最大上下文长度为73K视频token,对应于以每秒16帧的速度生成16秒的视频。我们在架构、潜在空间、训练目标和配方、数据管理、评估协议、并行化技术和推理优化方面展示了多项技术创新和简化,使我们能够从扩展预训练数据、模型大小和训练计算中获益,以训练大规模媒体生成模型。我们希望本文能帮助研究界加快媒体生成模型的进步和创新。
本文的所有视频均在https://go.fb.me/MovieGenResearchVideos可用。