Sora之后,苹果发布视频生成大模型STIV,87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作,这次是苹果视频生成大模型,关于模型架构、训练和数据的全面报告,87 亿参数、支持多模态条件、VBench 超 PIKA,KLING,GEN-3。

图片

  • 论文地址: https://arxiv.org/abs/2412.07730

  • Hugging Face link: https://huggingface.co/papers/2412.07730

OpenAI 的 Sora 公布了一天之后,在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 8.7B 参数的支持文本、图像条件的视频生成模型。

近年来,视频生成领域取得了显著进展,尤其是基于 Diffusion Transformer (DiT) 架构的视频生成模型 Sora 的推出。尽管研究者已在如何将文本及其他条件融入 DiT 架构方面进行了广泛探索,如 PixArt-Alpha 使用跨注意力机制,SD3 将文本与噪声块拼接并通过 MMDiT 模块应用自注意力等,但纯文本驱动的视频生成(T2V)在生成连贯、真实视频方面仍面临挑战。为此,文本 - 图像到视频(TI2V)任务被提出,通过加入初始图像帧作为参考,提供了更具约束性的生成基础。

当前主要挑战在于如何将图像条件高效地融入 DiT 架构,同时在模型稳定性和大规模训练效率方面仍需创新。为解决这些问题,我们提出了一个全面、透明的白皮书,涵盖了模型结构,训练策略,数据和下游应用,统一了T2V和TI2V任务

基于以上问题,该工作的贡献与亮点主要集中在:

  1. 提出 STIV 模型,实现 T2V 和 TI2V 任务的统一处理,并通过 JIT-CFG 显著提升生成质量;

  2. 系统性研究包括 T2I、T2V 和 TI2V 模型的架构设计、高效稳定的训练技术,以及渐进式训练策略;

  3. 模型易于训练且适配性强,可扩展至视频预测、帧插值和长视频生成等任务;

  4. 实验结果展示了 STIV 在 VBench 基准数据集上的优势,包括详细的消融实验和对比分析。

图片

该研究不仅提升了视频生成质量,还为视频生成模型在未来多种应用场景中的推广奠定了坚实基础。

图片

构建 STIV 的配方解析

图片

</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值