美团LongCat-Video开源:136亿参数模型如何重塑AI视频生成格局

美团LongCat-Video开源:136亿参数模型如何重塑AI视频生成格局

【免费下载链接】LongCat-Video 【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

导语

2025年10月27日,美团LongCat团队正式发布并开源136亿参数视频生成模型LongCat-Video,以统一架构实现文本生成视频、图像生成视频和视频续写全任务覆盖,原生支持5分钟级长视频连贯生成,推理速度提升10倍,综合性能跻身开源领域最先进水平。

行业现状:长视频生成的技术瓶颈与市场机遇

2025年,AI视频生成技术正经历从"技术演示"向"实用工具"的关键转型。当前主流开源模型普遍受限于30秒以内的短视频生成,且存在色彩漂移、动作断裂等问题。据行业分析,长视频生成已成为内容创作、数字人、具身智能等场景的核心瓶颈,而商业解决方案普遍采用闭源模式且成本高昂。

全球AI视频生成市场呈现爆发式增长态势。据Fortune Business Insights报告显示,该市场规模已从2024年的6.148亿美元增长至2025年的7.168亿美元,预计2032年将达到25.629亿美元,年复合增长率高达20.0%。其中亚太地区增长尤为迅速,预计2025年市场规模将达1.502亿美元,年复合增长率23.8%,主要驱动力来自数字化快速发展和社交媒体参与度激增。

深度科技研究院院长张孝荣指出:"视频生成模型正在从单纯的内容工具向'世界模型'演进,其核心标志就是对物理规律的建模能力和时序一致性的控制水平。"美团此次发布的LongCat-Video,正是瞄准这一技术前沿,以长视频生成为突破口,迈出探索世界模型的第一步。

核心亮点:四大技术突破重构视频生成范式

多任务统一架构:一个模型搞定三类需求

LongCat-Video基于Diffusion Transformer架构,创新通过"条件帧数量"实现任务区分:

  • 文生视频:无需条件帧,直接从文本生成720p/30fps高清视频
  • 图生视频:输入1帧参考图,严格保留主体属性与风格
  • 视频续写:基于多帧前序内容续接,形成完整任务闭环

这种设计避免了传统方案需要多个模型分别处理不同任务的复杂性,原生支持三大核心功能且无需额外适配。

美团LongCat-Video多任务统一架构示意图

如上图所示,该架构展示了LongCat-Video如何通过统一框架实现文生/图生/视频续写任务。左侧为模型整体结构,右侧展示了不同任务通过条件帧数量进行区分的创新设计,这种一体化方案大幅提升了系统效率和一致性。

长视频生成:5分钟连贯输出无质量损失

作为模型的核心差异化能力,LongCat-Video通过三大技术保障长视频生成质量:

  • 原生视频续写预训练:从根本上解决时序一致性问题
  • Block-Causual Attention机制:有效捕捉长时序依赖关系
  • GRPO后训练:提升物理运动合理性

美团技术团队表示,LongCat-Video可稳定输出5分钟级别的长视频,且无质量损失,达到行业顶尖水平。同时,从根源规避色彩漂移、画质降解、动作断裂等行业痛点,保障跨帧时序一致性与物理运动合理性,完美适配数字人、具身智能、世界模型等需要长时序动态模拟的场景需求。

推理效率革命:三重优化实现10倍提速

针对高分辨率视频生成的计算瓶颈,LongCat-Video采用"粗到精"生成策略:

  • 二阶段生成:先生成480p/15fps低分辨率视频,再超分至720p/30fps
  • 块稀疏注意力:将计算量降至标准密集注意力的10%以下
  • 模型蒸馏:结合CFG与一致性模型蒸馏,采样步骤从50步减至16步

实测显示,该优化组合使720p/30fps视频生成时间缩短至分钟级,推理速度较传统方法提升10.1倍,为实时应用奠定基础。

性能对标:开源领域综合第一

在内部基准测试中,LongCat-Video与同类模型相比表现突出:

LongCat-Video与主流模型性能对比

如上图所示,该对比图表展示了LongCat-Video与Veo3、PixVerse-V5、Wan2.2-T2V-A14B在文本对齐、视觉质量、运动质量和整体质量四个维度的表现对比。可以看出,LongCat-Video在文本对齐(3.76)和整体质量(3.38)上超过开源对比模型Wan 2.2-T2V-A14B,尤其在运动质量指标上达到3.74,接近商业模型水平,验证了其作为开源SOTA模型的竞争力。

行业影响:开源生态与商业价值的双重赋能

技术普及:降低长视频创作门槛

LongCat-Video采用MIT开源协议,开发者可免费商用。通过提供完整的训练代码和推理管线,大幅降低了长视频生成技术的应用门槛。社区开发者已基于该模型衍生出CacheDiT等加速方案,实现近1.7倍的速度提升。

对于内容创作者而言,这意味着可以告别传统视频制作中拍摄、剪辑、特效等繁琐流程,直接通过文本描述或单张图片快速生成高质量视频内容。特别是对于中小企业和自媒体创作者,LongCat-Video提供了与大型企业同台竞技的技术基础,显著降低内容制作成本。

应用场景拓展:从内容创作到世界模型

美团技术团队表示,该模型已展现出在多个领域的应用潜力:

  • 数字内容创作:广告视频、电商展示、教育素材自动化生成
  • 数字人:支持虚拟主播的长时动态表现
  • 具身智能:为机器人提供环境动态预测能力
  • 自动驾驶:场景动态模拟与风险预测

作为一款视频生成模型,LongCat-Video凭借其精准重构真实世界运行状态的能力,正在成为美团探索世界模型的第一步,也是关键的一步。同时,这也为后续支撑更多自动驾驶、具身智能等深度交互业务场景,夯实了技术基础。

美团LongCat-Video探索世界模型

如上图所示,黑色背景上带有绿色几何网络图形,展示了美团技术团队正式发布LongCat-Video视频生成模型的宣传内容,强调其是探索世界模型的第一步。要让人工智能真正理解、预测甚至重构真实世界,"世界模型"已成为通往下一代智能的核心引擎,而视频生成模型有望成为构建世界模型的关键路径。

快速上手:如何使用LongCat-Video

环境准备

git clone https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建conda环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装torch (根据CUDA版本配置)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

# 安装flash-attn-2
pip install ninja psutil packaging flash_attn==2.7.4.post1

# 安装其他依赖
pip install -r requirements.txt

模型下载

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

基础任务运行

  • 文生视频
# 单GPU推理
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 多GPU推理
torchrun --nproc_per_node=2 run_demo_text_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video --enable_compile
  • 图生视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
  • 视频续写
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
  • 长视频生成
torchrun run_demo_long_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

未来展望:从视频生成到世界模型

美团LongCat团队表示,LongCat-Video只是探索世界模型的第一步。未来,团队将重点提升模型在物理规律建模、复杂场景交互和多模态理解等方面的能力,逐步构建能够精准模拟真实世界运行的智能系统。

随着技术的不断迭代,我们有理由相信,视频生成模型将从单纯的内容创作工具,进化为支撑自动驾驶、机器人交互、虚拟世界构建的核心基础设施。LongCat-Video的开源,无疑为这一进程注入了强大动力。

对于开发者而言,现在正是探索AI视频生成技术的最佳时机。无论是内容创作者、AI研究者还是企业开发者,都不妨尝试使用LongCat-Video,体验AI视频生成的最新进展。随着社区的不断发展,我们期待看到更多基于该模型的创新应用和技术改进。

项目地址:https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video
论文地址:https://huggingface.co/papers/2510.22200

如果觉得这篇文章对你有帮助,欢迎点赞、收藏、关注三连,后续将为您带来更多AI生成式模型的深度解析!

【免费下载链接】LongCat-Video 【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值