13.6B参数铸就“世界模型”,美团LongCat-Video实现5分钟原生视频生成,定义AI视频新标杆

近日,美团发布了一款名为LongCat-Video的AI视频生成模型,以其原生支持5分钟720p长视频生成的能力,迅速在行业内引起广泛关注。

与多数侧重于风格化生成的模型不同,LongCat-Video将自己定位为更具深度的“世界模型”。它不仅在学习生成画面,更在尝试理解真实世界的动态规律——从滑板运动的物理轨迹,到人物表情的自然变化,都展现出对因果关系的捕捉能力。

这一突破性进展,得益于其独特的“视频续写”预训练方式。模型通过观看“连续剧”般的长序列数据,学会了预测后续内容。结合高效的块因果注意力机制,它在保证长时间连贯性的同时,将生成速度提升了10倍,为实现真正可用的AI视频创作奠定了坚实基础。

美团的此番布局,意图深远。LongCat-Video不仅是内容生成工具,更是其利用AI模拟现实业务场景(如外卖配送、交通预测)的战略基石,标志着美团在探索通用人工智能的道路上迈出了关键一步。

图片

核心亮点

1. 统一模型架构:多任务一体化视频生成基座

LongCat-Video 基于 Diffusion Transformer(DiT)架构构建,创新性地通过“条件帧数量”自动区分生成任务:

  • 文生视频:无需条件帧,直接根据文本生成视频;

  • 图生视频:输入1帧参考图像,实现视觉内容延续;

  • 视频续写:基于多帧前序视频进行连贯续写。

该设计将三大核心任务整合于单一模型中,无需额外适配模块,形成完整的“文-图-视频”生成闭环,在语义理解、内容一致性与动态自然度方面均达到开源SOTA水平。

图片

2. 长视频生成能力:原生支持5分钟级连贯输出

通过视频续写任务的预训练、Block-Causal Attention 机制与GRPO后训练策略,模型能够稳定生成长达5分钟的高清内容(720p/30fps),且在时序一致性、运动合理性方面表现优异,有效规避色彩漂移、画质退化、动作断裂等常见问题。

为提升长序列生成效率,模型引入块稀疏注意力(BSA)条件Token缓存机制,显著减少冗余计算,即便处理93帧以上长视频仍能保持生成质量与推理速度的平衡,满足数字人、具身智能等长时序模拟场景的需求。

3. 高效推理机制:三重优化实现10倍加速

针对高分辨率视频生成的计算挑战,LongCat-Video 采用三项关键技术实现推理速度的显著提升:

  • 二阶段粗到精生成(C2F):先生成480p/15fps基础视频,再通过LoRA模块进行超分与帧率提升,兼顾效率与细节还原;

  • 块稀疏注意力(BSA):对视觉Token进行分块筛选,仅对关键块进行注意力计算,将计算量压缩至标准注意力的10%以下;

  • 模型蒸馏优化:通过蒸馏技术进一步压缩模型规模,提升推理速度。

图片

模型评测

LongCat-Video 在模型评估方面构建了完整的评测体系,涵盖内部基准测试公开基准测试,围绕文本生成视频(Text-to-Video)与图像生成视频(Image-to-Video)两大核心任务,从以下五个维度进行全面验证:

  • 文本对齐度(文本指令遵循能力)

  • 图像对齐度(参考图像内容一致性)

  • 视觉质量(画面清晰度与真实性)

  • 运动质量(动作自然性与连贯性)

  • 整体质量(综合观感评分)

图片

评估结果表明,LongCat-Video 在多项关键指标上表现优异,综合性能达到当前开源视频生成模型的领先水平(SOTA),具体体现为:

  1. 通用性能卓越

    作为拥有136亿参数的视频生成基座模型,LongCat-Video 在文生视频、图生视频任务中均展现出强大的综合能力,在文本对齐度、运动连贯性等关键指标上具备显著优势。

  2. 公开基准测试表现突出

    在 VBench 等权威公开评测基准中,LongCat-Video 在参评模型中整体成绩优异,验证了其在不同场景下的鲁棒性与生成质量。

  3. 多维度质量均衡提升

    模型在语义理解、视觉细节、动态合理性等维度实现均衡优化,能够生成内容一致、画面稳定、动作自然的高质量视频内容。

图片

社区地址

OpenCSG社区:https://opencsg.com/models/AIWizards/LongCat-Video

hf社区:https://huggingface.co/meituan-longcat/LongCat-Video

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值