美团开源LongCat-Video视频生成模型:突破5分钟长视频壁垒,迈向"世界模型"新征程
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
10月27日,美团LongCat团队正式对外发布并开源了新一代视频生成模型LongCat-Video,该模型在文本生成视频(文生视频)和图像生成视频(图生视频)两大基础任务上均达到当前开源领域的最高水平(SOTA)。与传统单一任务模型不同,LongCat-Video创新性地采用多任务联合训练架构,能够在统一框架下无缝处理零帧(纯文本输入)、单帧(单张图片输入)及多帧(多张图片序列输入)等多种条件生成需求,展现出强大的任务泛化能力。尤为值得关注的是,该模型攻克了长视频生成的技术瓶颈,首次实现原生支持5分钟级别连贯视频输出,通过视频续写任务的深度预训练,有效解决了长时序生成中普遍存在的画面漂移、色彩失真、物体形变等难题,保持了卓越的时间一致性与视觉稳定性。
在人工智能技术迅猛发展的当下,"世界模型"已成为业界公认的下一代AI核心发展方向。这种模型能够在时空维度上精准建模物理世界的运行规律与场景逻辑,赋予AI理解现实、预测变化乃至重构虚拟世界的能力。而视频生成技术作为构建"世界模型"的关键基石,通过对几何空间、语义信息与物理规则的深度压缩与学习,使AI得以在数字空间中模拟真实世界的动态演化过程。美团LongCat团队强调,LongCat-Video的推出是公司向"世界模型"目标迈进的战略性一步,未来将深度融合自动驾驶、具身智能等前沿业务场景,为美团连接现实物理世界(原子世界)与数字虚拟空间(比特世界)提供坚实的技术支撑。
LongCat-Video支持生成720p高清分辨率、30帧每秒(FPS)的流畅视频内容,其最显著的技术突破在于原生生成长达5分钟的长视频能力。为实现这一目标,模型创新性地引入视频续写预训练机制,通过海量长视频序列数据学习时序依赖关系;同时采用块稀疏注意力(Block Sparse Attention)技术,在保证长序列建模能力的同时大幅降低计算复杂度,有效抑制了长视频生成中的画面断裂、质量衰减等问题,确保视频内容在时间维度上的连贯性与运动逻辑的物理合理性。
如上图所示,三帧画面中穿黄色雨衣雨靴的女孩在海边的不同动态场景,包括海浪轻抚脚踝、弯腰捡拾贝壳、转身眺望远方等动作。这组示例生动展示了LongCat-Video在不同动作姿态、环境互动下的细节刻画能力与风格统一性,为开发者直观理解模型的视觉生成质量提供了清晰参考。
在计算效率方面,针对高分辨率、高帧率视频生成面临的巨大计算瓶颈,LongCat-Video构建了"二阶段粗到精生成(Coarse-to-Fine, C2F)+ 块稀疏注意力(Block Sparse Attention, BSA)+ 模型蒸馏"的三重优化体系。其中,C2F机制先快速生成低分辨率视频草稿,再通过精细化模块提升画质;BSA技术选择性激活关键注意力头,降低冗余计算;模型蒸馏则通过知识迁移压缩模型体积,提升推理速度。通过这三项技术的协同作用,LongCat-Video的视频推理速度较传统方法提升10.1倍,成功实现了生成质量与计算效率的最优平衡。
为全面评估模型性能,美团构建了覆盖文生视频与图生视频两大核心任务的完善评测体系。该体系包含文本对齐度(评估视频内容与输入文本描述的匹配程度)、视觉质量(画面清晰度、细节丰富度、色彩真实性)、运动质量(动作流畅性、物理合理性)和总体表现(综合观感)四大核心维度,其中图生视频任务额外增加图像一致性指标(评估生成视频与输入参考图像的风格、内容连贯性)。为确保评测结果的科学性与客观性,团队采用人工与自动双轨并行的评估机制:人工评价分为绝对打分(1-10分制)与相对偏好(二选一比较)两种方式,所有测试样本均由多名经验丰富的标注员独立评分,最终通过加权平均消除主观偏差;自动评测则由内部训练的多模态"判官模型"执行,该模型与人工评价结果的相关性高达0.92,有效保障了大规模评测的效率与客观性。
根据官方公布的评测数据,LongCat-Video在文生视频任务的四项核心指标中表现亮眼:视觉质量得分与谷歌最新发布的Veo3模型基本持平,整体综合质量超越了PixVerse-V5以及国内领先的开源模型Wan2.2。在运动质量维度,该模型生成的视频展现出自然流畅的动作表现和符合物理规律的镜头运动,物体加速、减速、碰撞等动态过程真实可信。文本对齐度方面,LongCat-Video虽略逊于Veo3,但已能准确捕捉大部分关键语义信息。在图生视频任务中,模型生成的画面细节丰富、风格还原度高,但在输入图像高精度细节保持和长时序动作连贯性方面仍存在提升空间。技术报告分析指出,这主要由于模型在处理高分辨率参考帧时采用了保守的细节保持策略,虽然保障了视觉质量,却在一定程度上限制了动态表现力。在国际权威公开评测平台VBench 2.0上,LongCat-Video在"常识理解"单项中以70.94%的得分位居所有开源模型首位,综合得分达到62.11%,仅次于谷歌Veo3和生数Vidu Q1等商用闭源模型,充分彰显了其技术竞争力。
如上图所示,美团LongCat-Video官方网页界面清晰展示了模型的核心定位与功能模块,"统一基础视频生成模型"的标题凸显其多任务融合能力,"文生视频"与"图生视频"入口直观呈现核心应用场景,背景的滑板运动动态场景则暗示模型对复杂运动的建模能力。页面底部提供的代码仓库、模型下载、技术报告等入口,为开发者快速上手与深度研究提供了便利。
作为美团在"世界模型"领域的重要实践,LongCat-Video不仅在技术上实现了长视频生成的突破,更为AI技术在实际业务场景的落地开辟了新路径。未来,该模型有望在自动驾驶系统的虚拟环境构建、无人配送机器人的场景理解与决策、实体零售的虚拟商品展示等领域发挥重要作用。通过将视频生成技术与业务场景深度耦合,美团正逐步构建起连接数字与物理世界的技术桥梁。
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



