Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。
-
论文地址: https://arxiv.org/abs/2412.07730
-
Hugging Face link: https://huggingface.co/papers/2412.07730
OpenAI 的 Sora 公布了一天之后,在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 8.7B 参数的支持文本、图像条件的视频生成模型。
近年来,视频生成领域取得了显著进展,尤其是基于 Diffusion Transformer (DiT) 架构的视频生成模型 Sora 的推出。尽管研究者已在如何将文本及其他条件融入 DiT 架构方面进行了广泛探索,如 PixArt-Alpha 使用跨注意力机制,SD3 将文本与噪声块拼接并通过 MMDiT 模块应用自注意力等,但纯文本驱动的视频生成(T2V)在生成连贯、真实视频方面仍面临挑战。为此,文本 - 图像到视频(TI2V)任务被提出,通过加入初始图像帧作为参考,提供了更具约束性的生成基础。
当前主要挑战在于如何将图像条件高效地融入 DiT 架构,同时在模型稳定性和大规模训练效率方面仍需创新。为解决这些问题,我们提出了一个全面、透明的白皮书,涵盖了模型结构,训练策略,数据和下游应用,统一了T2V和TI2V任务。
基于以上问题,该工作的贡献与亮点主要集中在:
-
提出 STIV 模型,实现 T2V 和 TI2V 任务的统一处理,并通过 JIT-CFG 显著提升生成质量;
-
系统性研究包括 T2I、T2V 和 TI2V 模型的架构设计、高效稳定的训练技术,以及渐进式训练策略;
-
模型易于训练且适配性强,可扩展至视频预测、帧插值和长视频生成等任务;
-
实验结果展示了 STIV 在 VBench 基准数据集上的优势,包括详细的消融实验和对比分析。
该研究不仅提升了视频生成质量,还为视频生成模型在未来多种应用场景中的推广奠定了坚实基础。
构建 STIV 的配方解析
</