美团LongCat-Video开源:136亿参数模型如何重塑AI视频生成格局
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
导语
2025年10月27日,美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video,以统一架构实现文本生成视频、图像生成视频和视频续写全任务覆盖,原生支持5分钟级长视频连贯生成,推理速度提升10倍,综合性能跻身开源领域最先进水平。
行业现状:长视频生成的技术瓶颈与市场机遇
2025年,AI视频生成技术正经历从"技术演示"向"实用工具"的关键转型。当前主流开源模型普遍受限于30秒以内的短视频生成,且存在色彩漂移、动作断裂等问题。据行业分析,长视频生成已成为内容创作、数字人、具身智能等场景的核心瓶颈,而商业解决方案普遍采用闭源模式且成本高昂。
全球AI视频生成市场呈现爆发式增长态势。据Fortune Business Insights报告显示,该市场规模已从2024年的6.148亿美元增长至2025年的7.168亿美元,预计2032年将达到25.629亿美元,年复合增长率高达20.0%。其中亚太地区增长尤为迅速,预计2025年市场规模将达1.502亿美元,年复合增长率23.8%,主要驱动力来自数字化快速发展和社交媒体参与度激增。
深度科技研究院院长张孝荣指出:"视频生成模型正在从单纯的内容工具向'世界模型'演进,其核心标志就是对物理规律的建模能力和时序一致性的控制水平。"美团此次发布的LongCat-Video,正是瞄准这一技术前沿,以长视频生成为突破口,迈出探索世界模型的第一步。
核心亮点:四大技术突破重构视频生成范式
多任务统一架构:一个模型搞定三类需求
LongCat-Video基于Diffusion Transformer架构,创新通过"条件帧数量"实现任务区分:
- 文生视频:无需条件帧,直接从文本生成720p/30fps高清视频
- 图生视频:输入1帧参考图,严格保留主体属性与风格
- 视频续写:基于多帧前序内容续接,形成完整任务闭环
这种设计避免了传统方案需要多个模型分别处理不同任务的复杂性,原生支持三大核心功能且无需额外适配。
如上图所示,该架构展示了LongCat-Video如何通过统一框架实现文生/图生/视频续写任务。左侧为模型整体结构,右侧展示了不同任务通过条件帧数量进行区分的创新设计,这种一体化方案大幅提升了系统效率和一致性。
长视频生成:5分钟连贯输出无质量损失
作为模型的核心差异化能力,LongCat-Video通过三大技术保障长视频生成质量:
- 原生视频续写预训练:从根本上解决时序一致性问题
- Block-Causual Attention机制:有效捕捉长时序依赖关系
- GRPO后训练:提升物理运动合理性
美团技术团队表示,LongCat-Video可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。
推理效率革命:三重优化实现10倍提速
针对高分辨率视频生成的计算瓶颈,LongCat-Video采用"粗到精"生成策略:
- 二阶段生成:先生成480p/15fps低分辨率视频,再超分至720p/30fps
- 块稀疏注意力:将计算量降至标准密集注意力的10%以下
- 模型蒸馏:结合CFG与一致性模型蒸馏,采样步骤从50步减至16步
实测显示,该优化组合使720p/30fps视频生成时间缩短至分钟级,推理速度较传统方法提升10.1倍,为实时应用奠定基础。
性能对标:开源领域综合第一
在内部基准测试中,LongCat-Video与同类模型相比表现突出:
如上图所示,该对比图表展示了LongCat-Video与Veo3、PixVerse-V5、Wan2.2-T2V-A14B在文本对齐、视觉质量、运动质量和整体质量四个维度的表现对比。可以看出,LongCat-Video在文本对齐(3.76)和整体质量(3.38)上超过开源对比模型Wan 2.2-T2V-A14B,尤其在运动质量指标上达到3.74,接近商业模型水平,验证了其作为开源SOTA模型的竞争力。
行业影响:开源生态与商业价值的双重赋能
技术普及:降低长视频创作门槛
LongCat-Video采用MIT开源协议,开发者可免费商用。通过提供完整的训练代码和推理管线,大幅降低了长视频生成技术的应用门槛。社区开发者已基于该模型衍生出CacheDiT等加速方案,实现近1.7倍的速度提升。
对于内容创作者而言,这意味着可以告别传统视频制作中拍摄、剪辑、特效等繁琐流程,直接通过文本描述或单张图片快速生成高质量视频内容。特别是对于中小企业和自媒体创作者,LongCat-Video提供了与大型企业同台竞技的技术基础,显著降低内容制作成本。
应用场景拓展:从内容创作到世界模型
美团技术团队表示,该模型已展现出在多个领域的应用潜力:
- 数字内容创作:广告视频、电商展示、教育素材自动化生成
- 数字人:支持虚拟主播的长时动态表现
- 具身智能:为机器人提供环境动态预测能力
- 自动驾驶:场景动态模拟与风险预测
作为一款视频生成模型,LongCat-Video凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。
如上图所示,黑色背景上带有绿色几何网络图形,展示了美团技术团队正式发布LongCat-Video视频生成模型的宣传内容,强调其是探索世界模型的第一步。要让人工智能真正理解、预测甚至重构真实世界,"世界模型"已成为通往下一代智能的核心引擎,而视频生成模型有望成为构建世界模型的关键路径。
快速上手:如何使用LongCat-Video
环境准备
git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
# 创建conda环境
conda create -n longcat-video python=3.10
conda activate longcat-video
# 安装torch (根据CUDA版本配置)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
# 安装flash-attn-2
pip install ninja psutil packaging flash_attn==2.7.4.post1
# 安装其他依赖
pip install -r requirements.txt
模型下载
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
基础任务运行
- 文生视频
# 单GPU推理
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# 多GPU推理
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile
- 图生视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
- 视频续写
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
- 长视频生成
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
未来展望:从视频生成到世界模型
美团LongCat团队表示,LongCat-Video只是探索世界模型的第一步。未来,团队将重点提升模型在物理规律建模、复杂场景交互和多模态理解等方面的能力,逐步构建能够精准模拟真实世界运行的智能系统。
随着技术的不断迭代,我们有理由相信,视频生成模型将从单纯的内容创作工具,进化为支撑自动驾驶、机器人交互、虚拟世界构建的核心基础设施。LongCat-Video的开源,无疑为这一进程注入了强大动力。
对于开发者而言,现在正是探索AI视频生成技术的最佳时机。无论是内容创作者、AI研究者还是企业开发者,都不妨尝试使用LongCat-Video,体验AI视频生成的最新进展。随着社区的不断发展,我们期待看到更多基于该模型的创新应用和技术改进。
项目地址:https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
论文地址:https://huggingface.co/papers/2510.22200
如果觉得这篇文章对你有帮助,欢迎点赞、收藏、关注三连,后续将为您带来更多AI生成式模型的深度解析!
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考






