美团LongCat-Video开源：136亿参数模型实现5分钟长视频生成，推理速度提升10倍-优快云博客

美团LongCat-Video开源：136亿参数模型实现5分钟长视频生成，推理速度提升10倍

【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

导语

2025年10月27日，美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video，以统一架构支持文生视频、图生视频和视频续写三大任务，实现5分钟级720p/30fps长视频生成，推理速度较同类模型提升10.1倍，开启开源视频生成技术新纪元。

如上图所示，这是美团LongCat团队发布LongCat-Video时使用的官方宣传图，黑色背景搭配绿色几何网络线条与点，突出展示了该模型作为探索"世界模型"第一步的技术定位。该图直观传达了模型通过压缩多模态知识来模拟真实世界运行的核心能力。

行业现状：长视频生成的三大技术瓶颈

当前视频生成领域正面临三重挑战：时序一致性（跨帧色彩漂移）、物理合理性（动态违反现实规律）和生成长度限制（多数模型限于10秒内）。据相关研究显示，2025年全球AI视频生成市场规模已突破300亿美元，但长视频生成技术仍被少数商业模型垄断，开源方案普遍存在质量与效率难以兼顾的问题。

美团LongCat团队指出，视频生成模型是构建"世界模型"的关键路径——通过压缩几何、语义、物理等多模态知识，AI可在数字空间模拟真实世界运行。这一技术方向直接关联自动驾驶场景预测、具身智能环境交互等前沿领域，成为科技巨头的战略必争之地。

核心亮点：四大技术突破重构视频生成范式

1. 统一模型架构：三任务一体化基座

LongCat-Video基于Diffusion Transformer架构，创新通过"条件帧数量"实现任务区分：

文生视频：无需条件帧，直接生成720p/30fps视频
图生视频：输入1帧参考图，保留主体属性与风格
视频续写：基于多帧前序内容续接，形成创作闭环

这种设计使单一模型无需额外适配即可完成从文本创意到长视频制作的全流程，大幅降低开发者使用门槛。

2. 长视频生成：原生支持5分钟连贯输出

依托视频续写任务预训练、Block-Causual Attention机制和GRPO后训练技术，LongCat-Video实现长时序依赖建模。这一技术方案使模型从根源上规避色彩漂移、动作断裂等问题，为分钟级视频生成提供原生支撑。

实测显示，模型可稳定输出5分钟长视频且无质量损失，即使处理93帧以上长序列，仍能保持跨帧一致性，打破"时长与质量不可兼得"的行业瓶颈。

3. 高效推理：三重优化实现速度跃升

针对高分辨率视频生成的计算瓶颈，LongCat-Video采用创新优化策略：

二阶段粗到精生成：先480p/15fps再超分至720p/30fps
块稀疏注意力：仅计算关键视觉块注意力，降低90%计算量
模型蒸馏：结合CFG与一致性模型技术，采样步骤从50步减至16步

三重优化使视频推理速度提升10.1倍，720p视频生成时间缩短至分钟级，在普通GPU集群即可实现高效部署。

4. 性能领先：多维度评测达开源SOTA

如上图所示，该对比图展示了LongCat-Video与Veo3、PixVerse-V5等模型在文本对齐、视觉质量等维度的测评结果。数据显示，在文生视频任务中，LongCat-Video整体质量评分达3.38，超过Wan 2.2-T2V-A14B（3.35）和PixVerse-V5（3.36），尤其在文本语义理解维度表现突出。

行业影响：开源生态与商业应用双轮驱动

技术普惠：降低长视频创作门槛

LongCat-Video的开源将打破长视频生成技术垄断，使中小开发者和内容创作者能够：

低成本实现专业级视频制作
探索教育、营销、娱乐等垂直场景应用
基于开源代码二次开发定制化方案

社区反馈显示，已有开发者基于该模型实现虚拟主播实时互动、产品使用教程自动生成等创新应用，预计将催生视频创作新生态。

商业落地：美团的"世界模型"战略布局

美团技术团队表示，LongCat-Video将支撑多业务场景：

本地生活：自动生成商家动态展示视频
自动驾驶：交通场景动态预测与模拟
具身智能：服务机器人环境交互训练

这种"技术基座+业务场景"的双轮模式，或将成为科技企业大模型发展的典范。

快速上手：开发者部署指南

环境准备

git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
conda create -n longcat-video python=3.10
conda activate longcat-video
pip install -r requirements.txt

模型下载

huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

任务启动

# 文生视频
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 图生视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 视频续写（长视频生成）
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

未来展望：迈向世界模型的下一步

LongCat-Video的发布仅是起点。美团团队在技术报告中指出，下一代模型将聚焦：

4K分辨率与60fps高帧率支持
物理规律建模能力增强
多镜头叙事与剪辑逻辑学习

行业分析师认为，随着开源生态完善和硬件成本下降，长视频生成技术有望在2026年实现移动端实时推理，届时将彻底改变内容创作产业格局。

如上图所示，该架构图展示了LongCat-Video的多任务统一基座设计，通过Block-Causual Attention机制和GRPO后训练技术，实现长时序依赖建模。这一技术方案使模型从根源上规避色彩漂移、动作断裂等问题，为分钟级视频生成提供原生支撑。

开发者可通过项目主页获取完整技术文档和视频示例，共同探索长视频生成的无限可能。如果觉得这篇文章有帮助，请点赞、收藏、关注三连，后续将为您带来更多AI视频生成技术的深度解析！

【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考