美团开源136亿参数视频大模型LongCat-Video:5分钟长视频生成,推理速度提升10倍
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
导语
美团LongCat团队于2025年10月27日正式发布并开源136亿参数视频生成模型LongCat-Video,实现文生/图生/视频续写多任务统一,原生支持5分钟级长视频连贯生成,推理速度提升10.1倍,成为开源领域视频生成技术的重要突破。
行业现状:AI视频生成赛道加速爆发
全球AI视频生成器市场正以20%的年复合增长率快速扩张,从2024年的6.148亿美元增长至2032年预计的25.629亿美元。当前市场呈现"技术突破与商业化落地并行"的格局:国际上,OpenAI已推出Sora 2并整合社交媒体功能,Google的Veo3和Runway的Gen系列持续领跑;国内则形成百度MuseSteamer、快手Kling与美团LongCat-Video的三强竞争态势。
行业面临三大核心挑战:长视频生成的时序一致性问题、高分辨率视频的计算资源消耗,以及多任务模型的效率平衡。LongCat-Video正是针对这些痛点,通过架构创新和算法优化,在开源领域率先实现"长时序+高效率+高质量"的三重突破。
模型亮点:四大技术突破重构视频生成范式
1. 多任务统一架构:一个模型搞定所有视频创作需求
LongCat-Video基于Diffusion Transformer(DiT)架构,创新采用"条件帧数量"实现任务区分:文生视频无需条件帧、图生视频输入1帧参考图、视频续写依托多帧前序内容。这种设计使单个模型即可覆盖完整创作链路,无需额外适配即可在三大任务间无缝切换。
在文生视频任务中,模型可生成720p/30fps高清视频,文本对齐度达3.76分(5分制),超越PixVerse-V5和Wan2.2等开源竞品;图生视频则能严格保留参考图像的主体特征与风格,物理运动合理性评分达3.59分,尤其擅长处理复杂动态场景。
2. 长视频生成:原生支持5分钟无质量损失输出
作为核心差异化优势,LongCat-Video通过Block-Causual Attention机制和GRPO后训练技术,从根本解决了行业痛点:
如上图所示,该架构通过将3D视觉token分块并仅对关键块计算注意力,使计算量降至标准密集注意力的10%以下。在连续生成5分钟视频时,模型保持零质量损失,色彩漂移率降低87%,动作断裂问题减少92%,完美满足数字人交互、具身智能训练等专业场景需求。
3. 效率革命:三重优化实现10倍推理加速
针对高分辨率视频的计算瓶颈,LongCat-Video采用"二阶段粗到精生成(C2F)+块稀疏注意力(BSA)+模型蒸馏"组合策略:
- C2F生成:先生成480p/15fps低分辨率视频,再经LoRA精调模块超分至720p/30fps
- BSA优化:动态选取top-r关键视觉块计算注意力,长序列处理效率提升3倍
- 蒸馏加速:结合CFG与一致性模型蒸馏,采样步骤从50步减至16步
实测显示,该优化使720p/30fps视频生成时间从小时级压缩至分钟级,推理速度较同类模型提升10.1倍,单GPU即可流畅运行长视频生成任务。
4. 性能对标商业模型:开源领域综合第一
在内部基准测试中,LongCat-Video展现出与商业模型比肩的性能:
从图中可以看出,LongCat-Video在文生视频任务的整体质量评分(3.38)超越PixVerse-V5(3.36)和Wan2.2(3.35),仅次于谷歌Veo3(3.48);在VBench公开基准的"常识理解"维度以70.94%得分位居所有开源模型第一,展现出强大的真实世界建模能力。
行业影响:开源协作重塑产业格局
LongCat-Video的开源发布将加速视频生成技术普惠进程。其MIT许可协议允许商业使用,配合提供的单GPU部署方案,使中小企业和开发者能以极低门槛接入先进视频生成能力。目前已有社区项目CacheDiT基于LongCat-Video实现1.7倍推理加速,验证了模型的扩展性。
在垂直领域,该模型将推动三大变革:
- 内容创作:短视频制作成本降低80%,实现"文本→成片"的一键生成
- 教育培训:动态知识图谱可视化成为可能,复杂概念讲解效率提升3倍
- 数字人交互:支撑虚拟主播实现5分钟连贯直播,交互延迟从秒级降至毫秒级
美团技术团队表示,LongCat-Video是探索"世界模型"的第一步,未来将通过多模态融合,为自动驾驶、机器人导航等需要物理世界理解的场景提供技术基座。
快速上手:5分钟部署你的视频生成平台
# 克隆仓库
git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video
# 创建环境
conda create -n longcat-video python=3.10
conda activate longcat-video
# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install ninja psutil packaging flash_attn==2.7.4.post1
pip install -r requirements.txt
# 下载模型权重
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
# 运行文生视频示例
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
结论与前瞻
LongCat-Video的发布标志着国内视频生成技术正式进入"开源赶超"阶段。其在长视频生成、推理效率和多任务统一方面的突破,不仅为开发者提供了强大工具,更构建了可扩展的技术生态。随着模型迭代和社区优化,我们有望在2026年看到:
- 视频生成分辨率从720p提升至4K
- 推理成本降低至当前的1/5
- 多模态输入(文本+图像+音频)的融合创作
对于企业用户,建议重点关注LongCat-Video在营销素材生成、产品演示视频制作等场景的落地;开发者可积极参与社区优化,探索模型在边缘设备部署、实时交互等方向的可能性。
点赞+收藏本文,关注AI视频生成技术前沿动态!下期我们将带来《LongCat-Video高级应用:数字人直播系统搭建指南》,敬请期待。
【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考





