拒绝不必要Think:微软&北大提出第一种自适应大型混合推理模型

大型推理模型(LRMs)过度冗长的思考过程在token消耗和延迟方面带来了巨大的开销,尤其是对于简单查询来说,这种思考过程往往是不必要的。

图片

微软研究院&北大提出了大型混合推理模型(LHRMs),这是第一种能够根据用户查询的上下文信息自适应地决定是否进行思考的模型。为了实现这一目标,提出了一种包含两个阶段的训练流程:以混合微调(HFT)作为冷启动,随后通过提出的混合群体策略优化(HGPO)进行在线强化学习,以隐式地学习选择合适的思考模式。

Qwen2.5-7B-Instruct、DeepSeek-R1-Distill-Qwen-7B以及LHRMs-7B在推理相关任务(上)和日常问答任务(下)中的示例回答,LHRMs能够自适应地决定何时进行思考,在保持强大推理能力的同时,实现了更快、更自然的日常交互。

图片

第一阶段:混合微调

  • 数据构建:混合微调数据集包含推理密集型(思考模式)和直接回答(无思考模式)的样本。思考模式的数据集包括高质量的数学、代码和科学问题,而无思考模式的数据集则包含简单的查询。

  • 优化目标:HFT 的目标是基于上下文预测下一个标记。

第二阶段:混合群体策略优化

  • 采样策略:对于每个查询 q,从旧策略中分别使用两种推理模式采样 N 个候选响应奖

  • 励评分和分配:使用奖励函数对每个候选输出进行评分,并根据平均奖励值分配二进制奖励,以捕获不同推理模式之间的相对质量和每个推理模式内的答案质量。

  • 优势估计:使用 GRPO 作为默认优势估计器,计算每个响应的最终每标记优势。

  • 优化目标:HGPO 通过最大化以下目标函数来优化策略模型,该函数结合了奖励和策略更新的约束。

图片

评估混合思考能力

  • 混合准确率(Hybrid Accuracy, HAcc):提出一个新的评估指标 HAcc,用于衡量模型在不同任务中正确选择适当推理模式的能力。通过比较模型选择的推理模式与基于奖励模型评分的“真实”推理模式的一致性来计算 HAcc。

实验结果显示(1.5B 和 7B),LHRMs能够自适应地对不同难度和类型的查询进行混合思考。它在推理和通用能力方面超越了现有的LRMs和LLMs,同时显著提高了效率。

图片

图片

图片

https://arxiv.org/pdf/2505.14631Think Only When You Need with Large Hybrid-Reasoning Models

来源 | PaperAgent

<think>我们正在处理一个关于“自适应动态权重预测模型”的查询。用户希望了解或构建这种模型。首先,我们需要定义这种模型:它应该能够根据数据的变化动态调整其内部权重,以提高预测准确性。根据引用[1],大规模预训练和适当的集成策略可以在不考虑时间信息的情况下取得良好效果,但我们的模型需要动态调整权重,因此可能需要考虑时间或序列特性。引用[2]提到神经网络编码器-解码器系统可能只是记忆训练数据,而不是真正理解。因此,我们应避免简单的记忆,而设计具有自适应能力的模型。引用[3]指出AI代理可以通过自动化和预测分析提高效率。我们的模型可以视为一种AI代理,它应能自动调整权重以适应变化。引用[4]关于图池化和混合卷积操作,可能对处理结构化数据(如文本)有用,但用户问题未明确数据类型。因此,我们设计模型时需考虑:1.动态调整权重:模型应能根据新数据或环境变化自动更新权重。2.避免过拟合:确保模型学习泛化能力,而非记忆数据。3.高效性:考虑到计算和内存成本(引用[1]提到多帧的成本问题)。可能的模型选择:-在线学习模型:如在线梯度下降,每次更新权重。-强化学习:使用奖励机制调整权重。-集成方法:如动态加权集成多个基模型。-自适应神经网络:如使用门控机制或注意力机制动态调整权重。由于用户未指定具体应用,我们以时间序列预测为例(因为动态权重常用于处理非平稳序列)。设计一个简单的时间序列预测模型,使用指数加权移动平均(EWMA)作为动态调整权重的例子,然后扩展到神经网络。步骤:1.问题定义:给定时间序列数据,预测下一个时间点的值。2.模型结构:使用一个循环神经网络(RNN)或LSTM,但加入自适应权重调整机制。具体实现:在RNN的隐藏状态更新中,加入一个可学习的权重调整因子,该因子由当前输入和上一个隐藏状态共同决定。数学表示:设$t$时刻的输入为$x_t$,隐藏状态为$h_t$,则传统的RNN更新为:$$h_t=\tanh(W_{xh}x_t+W_{hh}h_{t-1}+b_h)$$我们引入动态权重调整因子$\alpha_t$,它由一个小型网络(如全连接层)生成:$$\alpha_t=\sigma(W_a[x_t;h_{t-1}]+b_a)$$其中$\sigma$是sigmoid函数,$[x_t;h_{t-1}]$是拼接向量。然后,我们使用$\alpha_t$来调整输入权重和循环权重的比例:$$h_t=\tanh(\alpha_t\cdot(W_{xh}x_t)+(1-\alpha_t)\cdot(W_{hh}h_{t-1})+b_h)$$这样,模型可以根据当前输入和之前状态的重要性动态调整权重。训练:使用时间序列数据,通过反向传播和梯度下降优化所有参数(包括$W_{xh},W_{hh},W_a,b_h,b_a$)。这种模型能够动态调整权重,适应数据的变化。考虑到用户可能希望看到代码示例,我们提供一个简化的伪代码(使用PyTorch风格):```pythonimporttorchimporttorch.nnasnnclassAdaptiveRNN(nn.Module):def__init__(self,input_size,hidden_size):super(AdaptiveRNN,self).__init__()self.input_size=input_sizeself.hidden_size=hidden_size#定义权重矩阵self.W_xh=nn.Linear(input_size,hidden_size)self.W_hh=nn.Linear(hidden_size,hidden_size)#定义动态权重生成网络self.alpha_net=nn.Linear(input_size+hidden_size,1)self.tanh=nn.Tanh()defforward(self,x,h_prev):#x:当前输入,h_prev:上一个隐藏状态#生成alpha_talpha_input=torch.cat([x,h_prev],dim=-1)alpha_t=torch.sigmoid(self.alpha_net(alpha_input))#计算输入部分和循环部分part_input=self.W_xh(x)part_hidden=self.W_hh(h_prev)#动态加权h_t=self.tanh(alpha_t*part_input+(1-alpha_t)*part_hidden)returnh_t```注意:这只是一个基础示例,实际中可能需要更复杂的结构(如多层、双向等)。最后,根据要求生成相关问题。</think>### 自适应动态权重预测模型 自适应动态权重预测模型是一种能根据输入数据特征自动调整内部权重分配的机器学习模型,常用于处理非平稳数据流或需动态适应环境变化的场景。其核心是通过实时分析数据分布变化,动态优化模型参数权重,提升预测鲁棒性。 #### 核心原理 1. **权重动态调整机制** 模型通过在线学习算法(如在线梯度下降)或门控网络(如注意力机制)实时计算权重调整因子$\alpha_t$: $$ \alpha_t = \sigma(\mathbf{W} \cdot [\mathbf{x}_t; \mathbf{h}_{t-1}] + \mathbf{b}) $$ 其中$\sigma$为激活函数,$\mathbf{x}_t$为$t$时刻输入,$\mathbf{h}_{t-1}$为历史状态。 2. **多模型集成架构** 结合多个基模型(如LSTM、CNN、线性回归)的输出,通过自适应权重$w_i$加权融合: $$ \hat{y} = \sum_{i=1}^k w_i \cdot f_i(\mathbf{x}), \quad \sum w_i = 1 $$ 权重$w_i$由元学习器根据输入特征动态生成[^4]。 #### 关键技术实现 ```python import torch import torch.nn as nn class AdaptiveWeightModel(nn.Module): def __init__(self, input_dim, n_models): super().__init__() # 基模型池(示例含LSTM/CNN/线性) self.base_models = nn.ModuleList([ nn.LSTM(input_dim, 16), nn.Conv1d(input_dim, 16, 3), nn.Linear(input_dim, 16) ]) # 权重生成网络 self.weight_net = nn.Sequential( nn.Linear(input_dim * n_models, 32), nn.ReLU(), nn.Linear(32, n_models), nn.Softmax(dim=1) # 权重归一化 ) def forward(self, x): outputs = [model(x) for model in self.base_models] concat_out = torch.cat(outputs, dim=1) weights = self.weight_net(concat_out) # 动态权重 return torch.sum(weights * concat_out, dim=1) ``` #### 应用场景与优势 1. **时序预测** 在股票价格预测中动态调整技术指标与新闻情感的权重,解决市场状态切换问题[^1]。 2. **多模态融合** 视频分析中自适应平衡视觉帧与音频特征的贡献权重,避免静态外观偏差(如引用[1]所述现象)。 3. **概念漂移处理** 电商推荐系统实时调整用户长/短期兴趣模型权重,应对行为模式突变。 4. **资源优化** 通过权重压缩(如$\ell_1$正则化)减少高成本模型调用,满足引用[1]强调的计算效率需求。 #### 训练注意事项 - **损失函数设计**:需包含权重稳定性约束项 $$\mathcal{L} = \mathcal{L}_{pred} + \lambda \sum \| \nabla w_i \|_2$$ - **数据策略**:使用滑动窗口验证防止过拟合,避免引用[2]指出的"记忆而非理解"问题 - **部署**:采用模型蒸馏技术压缩动态权重网络,适配边缘设备
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值