美团LongCat-Flash-Thinking震撼发布:开源大模型推理能力迈入新纪元

今日,美团LongCat团队正式推出新一代高效推理大模型LongCat-Flash-Thinking。该模型在继承LongCat-Flash-Chat极速响应特性的基础上,实现了推理能力的整体跃升,在逻辑推理、数学运算、代码生成及智能体交互等核心领域均达到全球开源模型的领先水平。作为国内首个融合"深度推理+工具调用"与"非形式化+形式化推理"双重能力的大语言模型,LongCat-Flash-Thinking在处理高复杂度任务时展现出显著优势,尤其在数学证明、代码竞赛和智能体自主决策等场景中表现突出。目前,该模型已在主流开源平台全面提供下载,开发者可通过GitCode仓库获取完整代码与模型权重:https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Thinking

【免费下载链接】LongCat-Flash-Thinking 【免费下载链接】LongCat-Flash-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Thinking

创新技术架构:打造高效推理与稳定训练的双重引擎

LongCat-Flash-Thinking的突破性表现源于其三大核心技术创新,构建了从训练到推理的全链路优化体系。该架构通过模块化设计实现了推理能力的精准提升,同时保证了大规模训练的稳定性与效率。

领域并行强化学习:实现多能力均衡提升

针对传统强化学习中混合任务训练导致的能力失衡问题,美团团队创新研发了领域并行强化学习训练方法(Domain-Parallel RL Training)。该方法将STEM学科、代码开发和智能体任务三大核心领域的优化过程解耦处理,采用"分域训练-协同融合"的两阶段训练策略。通过独立优化各领域专属能力,再通过跨域知识迁移实现模型综合性能的帕累托最优提升,有效解决了复杂任务训练中的梯度冲突问题。

图片展示了LongCat-Flash-Thinking的训练流程架构,包含冷启动训练(Long CoT Cold-Start Training)和大规模强化学习(Large-Scale RL)两个阶段,通过领域并行训练方法(Domain-Parallel Training)实现STEM、代码、智能体任务的优化,并以下方各阶段训练的指标变化曲线展示性能趋势。 如上图所示,该架构清晰呈现了模型从冷启动训练到大规模强化学习的完整进化路径。领域并行训练方法通过将不同任务域解耦优化,再进行多维度能力融合,直观展示了模型如何实现各领域性能的均衡提升,为开发者理解模型训练逻辑提供了清晰的技术图谱。

异步弹性训练系统:突破大规模集群效率瓶颈

作为支撑整个训练流程的基础设施,异步弹性共卡系统(DORA)通过三大技术创新实现了训练效率的质的飞跃。该系统采用弹性共卡调度机制,可动态分配计算资源,结合多版本异步流水线设计,使训练速度较传统同步RL框架提升300%。创新性的KV缓存复用技术进一步降低了内存占用,确保万卡规模集群在高负载下仍能保持稳定运行,为模型的快速迭代提供了坚实的算力支撑。

智能体推理框架:赋予模型自主决策与工具调用能力

为提升模型的复杂任务处理能力,团队设计了创新性的"双路径智能体推理框架"。该框架通过自主样本筛选机制识别高价值查询任务,并构建自动化工具调用流程,使模型能够根据任务需求智能选择代码执行器、API接口等外部工具。在AIME25权威评测中,LongCat-Flash-Thinking在保持90%准确率的前提下,较无工具调用场景节省64.5%的Tokens消耗(从19653降至6965),大幅提升了推理过程的资源利用效率,展现出强大的复杂问题解决能力。

形式化推理引擎:攻克数学证明领域难题

针对当前开源模型在形式化推理任务中的短板,LongCat-Flash-Thinking构建了基于专家迭代框架的形式化推理系统。该系统集成Lean4定理证明器作为推理引擎,通过自动化生成经过严格验证的证明过程,系统性提升模型的数学推理可靠性。这种创新方法使模型在处理高阶数学证明时表现出显著优势,为学术研究和工程验证提供了强大的AI辅助工具。

权威评测验证:多维度性能刷新开源模型纪录

LongCat-Flash-Thinking在国际权威评测基准中展现出全面领先的性能表现,其在各领域的突破性成绩印证了创新技术架构的有效性。通过多维度能力测试,该模型充分证明了其在复杂推理任务中的核心竞争力。

通用推理能力:结构化逻辑任务表现卓越

在通用推理领域,LongCat-Flash-Thinking表现出卓越的结构化逻辑分析能力。在ARC-AGI基准测试中,模型以50.3分的成绩超越OpenAI o3、Gemini2.5 Pro等顶级闭源模型,展现出在常识推理、因果分析等基础能力上的全面提升,为处理复杂现实问题奠定了坚实基础。

数学推理能力:竞赛级问题求解达到新高度

数学推理是LongCat-Flash-Thinking的核心优势领域。在HMMT(哈佛-麻省理工数学竞赛)和AIME(美国数学邀请赛)等高水平赛事基准测试中,模型表现出与Qwen3-235B-A22B-Thinking等领先模型相当的解题能力,部分题目准确率超越OpenAI o3。这些成绩充分验证了模型在处理多步骤数学问题时的深度推理能力,为科学计算和工程问题提供了强大支持。

代码开发能力:开源模型中的编程竞赛强者

在代码生成领域,LongCat-Flash-Thinking刷新了多项开源模型纪录。在LiveCodeBench编程基准测试中,模型以79.4分的成绩显著领先所有参评开源模型,与GPT-5等顶级闭源模型水平相当。在OJBench评测中亦取得40.7分的优异成绩,接近Gemini2.5-Pro的表现,证明其在解决高难度编程竞赛问题上的卓越能力。

智能体与形式化推理:工具调用与定理证明双重突破

LongCat-Flash-Thinking在智能体工具调用(Agentic Tool Use)方面表现突出,τ2-Bench基准测试中以74.0分刷新开源模型纪录。在SWE-Bench、BFCL V3和VitaBench等专业评测中均保持领先竞争力,展现出强大的自主决策与工具使用能力。形式化推理方面,模型在MiniF2F-test基准中pass@1指标达到67.6分,大幅领先同类模型,在pass@8和pass@32指标中同样保持优势,确立了在结构化证明生成领域的领先地位。

展示了美团发布的大语言模型LongCat-Flash-Thinking在LiveCodeBench、OJBench、AIME-24等多个权威基准测试中的性能对比柱状图,突出其在代码、数学、智能体等任务中的领先表现。 该图表直观呈现了LongCat-Flash-Thinking与国内外主流模型的性能对比。从数据可以清晰看出,美团大模型在代码生成、数学推理和智能体任务中均处于开源第一梯队,部分指标已接近或超越闭源模型。这些量化结果为开发者选择合适的推理模型提供了权威参考,也彰显了中国开源模型的技术实力。

开源生态建设:助力AI技术创新与产业落地

LongCat-Flash-Thinking的全面开源标志着美团在大模型技术普惠化进程中的重要贡献。开发者可通过GitCode仓库获取完整的模型训练代码、推理工具和预训练权重,快速部署至科研与生产环境。美团技术团队同时提供详细的开发文档和示例代码,降低模型应用门槛,推动AI技术在各行业的创新应用。

作为国内首个实现"深度推理+形式化验证"双重能力的开源大模型,LongCat-Flash-Thinking为学术研究和产业应用提供了强大支持。其创新的技术架构和卓越的性能表现,不仅推动了开源大模型推理能力的边界,更为AI技术的可持续发展提供了新的思路。未来,美团LongCat团队将持续优化模型能力,探索更多复杂场景下的AI应用,为构建开放、协作的AI生态系统贡献力量。

通过LongCat-Flash-Thinking的技术突破,我们看到开源大模型正从通用能力向专业领域深度渗透,未来有望在科学发现、工程创新和智能决策等关键领域发挥更大价值。该模型的发布不仅是美团技术实力的展现,更是中国AI开源生态发展的重要里程碑,将加速推动人工智能技术在各行业的落地应用,为数字经济发展注入新动能。

【免费下载链接】LongCat-Flash-Thinking 【免费下载链接】LongCat-Flash-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Thinking

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值