美团LongCat-Video开源：136亿参数模型如何重塑AI视频生成格局-优快云博客

美团LongCat-Video开源：136亿参数模型如何重塑AI视频生成格局

【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

导语

2025年10月27日，美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video，以统一架构实现文本生成视频、图像生成视频和视频续写全任务覆盖，原生支持5分钟级长视频连贯生成，推理速度提升10倍，综合性能跻身开源领域最先进水平。

行业现状：长视频生成的技术瓶颈与市场机遇

2025年，AI视频生成技术正经历从"技术演示"向"实用工具"的关键转型。当前主流开源模型普遍受限于30秒以内的短视频生成，且存在色彩漂移、动作断裂等问题。据行业分析，长视频生成已成为内容创作、数字人、具身智能等场景的核心瓶颈，而商业解决方案普遍采用闭源模式且成本高昂。

全球AI视频生成市场呈现爆发式增长态势。据Fortune Business Insights报告显示，该市场规模已从2024年的6.148亿美元增长至2025年的7.168亿美元，预计2032年将达到25.629亿美元，年复合增长率高达20.0%。其中亚太地区增长尤为迅速，预计2025年市场规模将达1.502亿美元，年复合增长率23.8%，主要驱动力来自数字化快速发展和社交媒体参与度激增。

深度科技研究院院长张孝荣指出："视频生成模型正在从单纯的内容工具向'世界模型'演进，其核心标志就是对物理规律的建模能力和时序一致性的控制水平。"美团此次发布的LongCat-Video，正是瞄准这一技术前沿，以长视频生成为突破口，迈出探索世界模型的第一步。

核心亮点：四大技术突破重构视频生成范式

多任务统一架构：一个模型搞定三类需求

LongCat-Video基于Diffusion Transformer架构，创新通过"条件帧数量"实现任务区分：

文生视频：无需条件帧，直接从文本生成720p/30fps高清视频
图生视频：输入1帧参考图，严格保留主体属性与风格
视频续写：基于多帧前序内容续接，形成完整任务闭环

这种设计避免了传统方案需要多个模型分别处理不同任务的复杂性，原生支持三大核心功能且无需额外适配。

如上图所示，该架构展示了LongCat-Video如何通过统一框架实现文生/图生/视频续写任务。左侧为模型整体结构，右侧展示了不同任务通过条件帧数量进行区分的创新设计，这种一体化方案大幅提升了系统效率和一致性。

长视频生成：5分钟连贯输出无质量损失

作为模型的核心差异化能力，LongCat-Video通过三大技术保障长视频生成质量：

原生视频续写预训练：从根本上解决时序一致性问题
Block-Causual Attention机制：有效捕捉长时序依赖关系
GRPO后训练：提升物理运动合理性

美团技术团队表示，LongCat-Video可稳定输出5分钟级别的长视频，且无质量损失，达到行业顶尖水平。同时，从根源规避色彩漂移、画质降解、动作断裂等行业痛点，保障跨帧时序一致性与物理运动合理性，完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

推理效率革命：三重优化实现10倍提速

针对高分辨率视频生成的计算瓶颈，LongCat-Video采用"粗到精"生成策略：

二阶段生成：先生成480p/15fps低分辨率视频，再超分至720p/30fps
块稀疏注意力：将计算量降至标准密集注意力的10%以下
模型蒸馏：结合CFG与一致性模型蒸馏，采样步骤从50步减至16步

实测显示，该优化组合使720p/30fps视频生成时间缩短至分钟级，推理速度较传统方法提升10.1倍，为实时应用奠定基础。

性能对标：开源领域综合第一

在内部基准测试中，LongCat-Video与同类模型相比表现突出：

如上图所示，该对比图表展示了LongCat-Video与Veo3、PixVerse-V5、Wan2.2-T2V-A14B在文本对齐、视觉质量、运动质量和整体质量四个维度的表现对比。可以看出，LongCat-Video在文本对齐(3.76)和整体质量(3.38)上超过开源对比模型Wan 2.2-T2V-A14B，尤其在运动质量指标上达到3.74，接近商业模型水平，验证了其作为开源SOTA模型的竞争力。

行业影响：开源生态与商业价值的双重赋能

技术普及：降低长视频创作门槛

LongCat-Video采用MIT开源协议，开发者可免费商用。通过提供完整的训练代码和推理管线，大幅降低了长视频生成技术的应用门槛。社区开发者已基于该模型衍生出CacheDiT等加速方案，实现近1.7倍的速度提升。

对于内容创作者而言，这意味着可以告别传统视频制作中拍摄、剪辑、特效等繁琐流程，直接通过文本描述或单张图片快速生成高质量视频内容。特别是对于中小企业和自媒体创作者，LongCat-Video提供了与大型企业同台竞技的技术基础，显著降低内容制作成本。

应用场景拓展：从内容创作到世界模型

美团技术团队表示，该模型已展现出在多个领域的应用潜力：

数字内容创作：广告视频、电商展示、教育素材自动化生成
数字人：支持虚拟主播的长时动态表现
具身智能：为机器人提供环境动态预测能力
自动驾驶：场景动态模拟与风险预测

作为一款视频生成模型，LongCat-Video凭借其精准重构真实世界运行状态的能力，正在成为美团探索世界模型的第一步，也是关键的一步。同时，这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景，夯实了技术基础。

如上图所示，黑色背景上带有绿色几何网络图形，展示了美团技术团队正式发布LongCat-Video视频生成模型的宣传内容，强调其是探索世界模型的第一步。要让人工智能真正理解、预测甚至重构真实世界，"世界模型"已成为通往下一代智能的核心引擎，而视频生成模型有望成为构建世界模型的关键路径。

快速上手：如何使用LongCat-Video

环境准备

git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建conda环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装torch (根据CUDA版本配置)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

# 安装flash-attn-2
pip install ninja psutil packaging flash_attn==2.7.4.post1

# 安装其他依赖
pip install -r requirements.txt

模型下载

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

基础任务运行

文生视频

# 单GPU推理
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 多GPU推理
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile

图生视频

torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

视频续写

torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

长视频生成

torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

未来展望：从视频生成到世界模型

美团LongCat团队表示，LongCat-Video只是探索世界模型的第一步。未来，团队将重点提升模型在物理规律建模、复杂场景交互和多模态理解等方面的能力，逐步构建能够精准模拟真实世界运行的智能系统。

随着技术的不断迭代，我们有理由相信，视频生成模型将从单纯的内容创作工具，进化为支撑自动驾驶、机器人交互、虚拟世界构建的核心基础设施。LongCat-Video的开源，无疑为这一进程注入了强大动力。

对于开发者而言，现在正是探索AI视频生成技术的最佳时机。无论是内容创作者、AI研究者还是企业开发者，都不妨尝试使用LongCat-Video，体验AI视频生成的最新进展。随着社区的不断发展，我们期待看到更多基于该模型的创新应用和技术改进。

项目地址：https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
论文地址：https://huggingface.co/papers/2510.22200

如果觉得这篇文章对你有帮助，欢迎点赞、收藏、关注三连，后续将为您带来更多AI生成式模型的深度解析！

【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考