1.5B小模型+32B外援=28%准确提升+8倍提速?SplitReason实现推理过程“无缝接力”

前言

为什么需要让LLM学会“呼叫外援”?

大语言模型(如ChatGPT)虽然强大,但推理速度慢、算力消耗高。尤其是数学题、编程题等需要多步推理的任务,生成几千个token是家常便饭。这就像让一个博士生做小学数学题——虽然能做对,但时间和电费都让人心疼。

传统解决方案有两种:

  • 全用小模型:速度快,但容易出错。
  • 全用大模型:准确率高,但慢如蜗牛。

更尴尬的是,推理过程中并非每一步都难。比如解方程时,写“设未知数为x”很简单,但后续的复杂计算可能需要更高智商。于是论文提出:能不能让小模型处理简单步骤,遇到难题时自动呼叫大模型图片

论文:SplitReason: Learning To Offload Reasoning
链接:https://arxiv.org/pdf/2504.16379

小模型和大模型接力生成答案小模型和大模型接力生成答案

SplitReason如何实现“合作推理”?

SplitReason的核心理念是动态分工:

  • 小模型(1.5B参数):负责80-95%的推理步骤,像实习生一样处理常规任务。
  • 大模型(32B参数):作为“外援专家”,仅在关键难点介入。

关键机制

  • 小模型生成过程中,如果遇到困难,会主动发出信号 ,相当于喊“这道题我不会了,大佬快来!”
  • 大模型立刻接手,生成难点部分的答案,完成后用 交回控制权。
  • 两者的KV缓存(记忆模块)实时同步,实现无缝切换。

控制信号的触发与模型切换控制信号的触发与模型切换

如何训练小模型学会“求助”?

第一步:标注“困难段落”

  • 用超大模型(DeepSeek-R1 671B)自动分析18万条数学题的推理过程,标注出20%最难的步骤,并打上 标签。
  • 相当于让学霸给练习题划重点:“这里容易卡壳,需要开挂。”

第二步:分阶段训练

  • 模仿学习(SFT):让小模型学习标注数据,模仿何时该“求助”。
  • 强化学习(GRPO):进一步优化,奖励小模型“精准求助”——既不能乱喊救命,也不能硬撑到底。

数据标注过程示意图数据标注过程示意图

实验结果:又快又准

  • 准确率:相比纯小模型,AIME24数学题准确率提升28.3%。
  • 速度:通过卸载5%的任务给大模型,整体推理速度比纯用大模型快5-8倍。
  • 效率:大模型仅处理5%的token,却贡献了关键解题步骤。

实验对比:随机卸载 vs 智能卸载的效果差异实验对比:随机卸载 vs 智能卸载的效果差异

不同规模大模型的性能对比不同规模大模型的性能对比

更惊人的是,即使随机让大模型处理5%的步骤,准确率也能提升20% 。而智能卸载(SplitReason)进一步优化了这一过程,实现“四两拨千斤”。

意义与未来

  • 硬件友好:未来AI不仅要比谁更聪明,还要比谁更“省电”。
  • 开源价值:论文公开了模型、数据集和代码,开发者可以直接复现或改进。
  • 新范式:用强化学习让AI主动优化效率(RLAE),而不仅是模仿人类。

最后

为什么要学AI大模型

当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!

DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。

在这里插入图片描述

与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
在这里插入图片描述
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

AI大模型系统学习路线

在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。

img

但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。

AI大模型入门到实战的视频教程+项目包

看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径

在这里插入图片描述
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

海量AI大模型必读的经典书籍(PDF)

阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
在这里插入图片描述

600+AI大模型报告(实时更新)

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
在这里插入图片描述

AI大模型面试真题+答案解析

我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
在这里插入图片描述

在这里插入图片描述

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

### 模型大小与推理资源消耗的关系 在讨论32B浮点模型与128B int8量化模型的推理资源消耗时,需要理解模型大小与数据类型之间的关系。通常情况下,浮点数(FP32)占用4字节(32位),而INT8量化后的整数仅占用1字节(8位)。这意味着,理论上,将FP32模型转换为INT8模型可以减少模型大小至原来的1/4[^1]。 ### 存储需求对比 考虑到32B浮点模型指的是模型权重使用FP32格式存储,其实际占用的空间将是128B INT8量化模型的四。这是因为INT8量化通过将连续取值近似为有限多个离散值来减少模型尺寸,进而减少在推理时的内存消耗,并且在一些低精度运算较快的处理器上可以增加推理速度[^2]。 ### 内存带宽和计算效率 由于INT8量化减少了模型的存储空间需求,因此也降低了内存带宽的要求。更低的内存带宽需求意味着在执行推理任务时,可以更快地访问所需的数据,从而加快了模型的推理过程。此外,大多数处理器对8bits的运算更快,这进一步提升推理速度[^3]。 ### 能耗与性能平衡 使用更低bits数的模型不仅能够减少在运算过程中的内存与缓存消耗,而且由于8bits的计算拥有更好的实现效率,因此进行对应的计算所消耗的能量更少。这对于边缘设备和嵌入式系统等资源受限环境尤为重要[^3]。 ### 精度与实用性考量 尽管INT8量化可能会导致一定的精度损失,但由于CNN对噪声不敏感的特点,以及各层weights范围基本确定且波动不大,适合量化压缩,因此这种损失通常是可接受的。相比之下,直接训练低精度模型则面临挑战,因为训练过程中依赖的反向传播和梯度下降难以在INT8环境下有效执行[^5]。 ### 示例代码:模型推理资源消耗评估 ```python def estimate_memory_usage(model_size_gb, data_type_bits): """ 估算模型推理时的内存使用情况。 参数: model_size_gb (float): 模型大小以GB为单位 data_type_bits (int): 数据类型的位数 返回: float: 推理时的内存使用估计值(GB) """ bytes_per_element = data_type_bits / 8 return model_size_gb * (32 / data_type_bits) # 假设FP32模型大小为基准 # 计算32B浮点模型与128B int8量化模型的内存使用 fp32_model_size_gb = 32 int8_model_size_gb = 128 memory_usage_fp32 = estimate_memory_usage(fp32_model_size_gb, 32) memory_usage_int8 = estimate_memory_usage(int8_model_size_gb, 8) print(f"32B浮点模型推理时内存使用约为 {memory_usage_fp32} GB") print(f"128B int8量化模型推理时内存使用约为 {memory_usage_int8} GB") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值