随机奖励能提升Qwen数学表现?本质是数据污染


在这里插入图片描述

前言

前段时间一篇名为《Spurious Rewards: Rethinking Training Signals in RLVR》的paper在网上流传甚广,这篇文章指出随机奖励能够大幅度提升模型表现,当时很多人分析指出,这可能是一种大模型的一种“能力唤醒”。

不过今天这篇文章解释了随机奖励能提升模型表现的原因:纯粹是因为记忆!研究发现,某些LLM系列(尤其是Qwen2.5)在流行数学基准上的“显著进步”(甚至随机奖励都能有提升模型表现),并非源于其真正的推理能力提升,而是由于预训练语料中存在数据污染。

具体来说,文章发现给Qwen2.5系列模型输入问题的部分前缀,模型能给重构出大部分原始问题,并且只给定部分提示,模型也能得到该问题的准确答案。这充分说明Qwen模型是通过记忆而非推理得出答案。大概率是预训练阶段很多数据和一些benchmark有很大程度的重合。

论文通过引入一个干净的、无泄漏的合成数据集RandomCalculation,并进行受控实验,最终证实:只有准确的奖励信号才能带来LLM数学能力的稳定提升,而随机或不正确的奖励并不能。

1. 研究背景与动机

1.1 研究背景

近年来,强化学习技术被广泛用于提升大语言模型的推理能力,尤其在数学推理任务中,Qwen2.5等模型在MATH-500、AMC、AIME等基准上表现优异,甚至有研究称随机或错误奖励信号也能提升其性能。但事实是:

  • 模型特异性差异:Qwen2.5在RL方法下性能显著提升,但Llama等其他模型在相同条件下收效甚微,因此其提升可能并非源于通用的推理能力增强。
  • 奖励信号的“反常有效性”:随机或错误奖励能提升Qwen2.5的表现,这与传统RL依赖准确奖励信号的认知冲突,其背后机制存疑。
  • 基准可靠性争议:Qwen2.5的预训练数据包含海量网络文本,可能与常用数学基准存在重叠(数据污染),导致其性能评估结果不可靠。

1.2 研究动机

论文的探索源于以下关键疑问:

  • Qwen2.5在数学基准上的性能提升,是源于真实推理能力的增强,还是对基准数据的记忆?例如,当仅提供问题的部分前缀时,Qwen2.5能高精度补全问题并给出正确答案,而Llama无法做到,这暗示数据污染可能是主因。
  • 如何设计可靠的评估方法,排除数据污染的干扰,准确衡量RL对模型推理能力的真实提升?
  • 不同奖励信号(正确、随机、反向)对模型性能的影响是否依赖于数据清洁度?
    这些疑问指向核心问题:当前基于RL的LLM推理能力评估,是否因数据污染而产生了不可靠结论?论文旨在通过系统性实验揭示数据污染的影响,并提出更可靠的评估框架。

2. 核心方法解析

2.1 数据污染评估方法

核心思想:通过量化模型对基准数据的记忆程度,判断是否存在数据污染。
(1)部分提示补全率 (Partial-Prompt Completion Rate)

  • 核心思想: 衡量模型在给定问题部分前缀的情况下,重构问题其余部分的能力。如果模型能够高度准确地补全原始问题,则可能表明其是在“记忆”而非进行真正的推理,因为其可能在预训练阶段已经看到了完整的基准问题。
  • 衡量方法:
    • ROUGE-L: 这是一种基于重叠的度量,通过计算生成文本和参考文本之间最长公共子序列(LCS)的长度来评估文本的相似性。ROUGE-L得分越高,表示模型生成的补全内容与原始问题的剩余部分越相似。
    • 精确匹配(Exact Match, EM): EM是一个更严格的二元指标,它检查模型生成的补全内容是否与原始问题的剩余部分完全一致。高EM值直接表明模型能够逐字回忆出部分提示之后的原文内容,这是数据污染的一个强有力信号。
  • 指标意义: 较高的部分提示补全率,特别是高EM值,强烈暗示模型可能已经“记住”了这些问题,而非通过推理得出答案。

(2)部分提示答案准确率 (Partial-Prompt Answer Accuracy)

  • 核心思想: 评估模型在仅接收到问题部分内容的情况下,仍然能够生成正确答案的能力。这进一步验证了模型是否在记忆答案,而不是通过推理过程计算得出。
  • 衡量方法:
    • 向模型提供一个截断后的问题(例如,原始问题的A%),然后允许模型自由生成不受限制的续写。
    • 接着,检查这些续写中是否包含了原始问题的正确答案。
  • 指标意义: 如果模型在仅有部分问题提示的情况下,其生成的续写中频繁包含正确答案,这表明模型可能已经存储了完整的“问题-答案”对,并且能够从部分信息中“恢复”答案,从而规避了实际的推理过程。高准确率同样是数据污染的一个关键迹象。

2.2 RandomCalculation数据集构建

核心思想:确保数据集中的每个数学问题都是完全合成的,并且其生成时间晚于用于训练Qwen2.5等模型的预训练语料库的收集时间。这从根本上避免了模型通过记忆预训练数据来“解决”问题的可能性,从而能够真实地评估模型的推理能力。

  • 自动化生成器:
    • 算术表达式生成: 数据集利用一个自动生成器来创建算术表达式。这意味着问题不是从现有的、可能已被LLM见过的语料中提取,而是通过编程方式动态生成的。
    • 可变长度和难度: 生成器能够创建任意长度的算术表达式,并且可以控制问题的难度。这使得数据集非常灵活,能够适应不同复杂度的评估需求,并测试模型在泛化到更长、更复杂问题上的能力。
    • 操作数和运算符的随机性: 表达式中的操作数(数字)和运算符(如加、减、乘、除)都是均匀随机选择的。这种随机性确保了数据集的多样性,防止模型通过学习特定模式或模板来作弊,而是必须进行实际的算术推理。
  • 无数据泄漏保证:
    • 时间戳控制: 最关键的一点是,数据集中的每个实例都被确保其生成时间晚于Qwen2.5等模型的公开发布日期。这意味着在这些模型进行预训练时,RandomCalculation数据集中的问题尚未存在,从而彻底排除了数据泄漏的可能性。这一特性是RandomCalculation数据集相比其他常见数学基准(如MATH-500)的显著优势。

2.3 RLVR 实验设计

核心思想:在干净数据集上,对比不同奖励信号对模型性能的影响,验证奖励质量的重要性。
在这里插入图片描述
公式中a为模型输出,b为标准答案。

  • 考虑到算术表达式的计算结果可能包含高精度的小数,传统的0/1离散奖励(即完全正确才给1,否则给0)可能过于严苛,不利于强化学习的稳定训练。
  • 为此,RandomCalculation设计了一个连续的奖励函数,奖励值范围在0到1之间。
  • 这个连续奖励函数同时惩罚模型预测与参考答案之间的绝对误差和相对误差。这意味着即使模型没有给出完全精确的答案,只要其预测与真实答案足够接近,也能获得一定的奖励,从而为强化学习提供更平滑、更稳定的学习信号。

3. 实验

3.1 实验设置

  • 模型选择:Qwen2.5系列(7B、7B-Instruct、Math-7B等)和Llama3.1-8B(参数规模相近,用于对比)。
  • 评估数据集:
    • 污染数据集:MATH-500、AMC、AIME2024(可能与Qwen2.5预训练数据重叠)。
    • 干净数据集:LiveMathBench(2025年发布,Qwen2.5未见过)、RandomCalculation(全新生成)。
  • 评估指标:ROUGE-L(文本补全相似度)、EM(精确匹配率)、准确率(答案正确性)。

3.2 实验结果

3.2.1 数据污染

在这里插入图片描述
如上图所示,随机奖励确实可以提高Qwen系列的表现,但在llama上是没有效果的。
在这里插入图片描述
在MATH-500数据集上,Qwen2.5-Math-7B展现出极高的部分提示补全率和答案准确率,这与Llama3.1-8B的表现形成鲜明对比。然而,当在新发布的、无污染的LiveMathBench数据集上测试时,Qwen模型的这些指标急剧下降,与Llama模型处于同一水平。这有力证明了Qwen模型在MATH-500上的所谓“收益”主要源于数据污染和记忆化。

3.2.2 干净数据集上的RL效果

在这里插入图片描述

  • 在RandomCalculation上,仅正确奖励能使Qwen2.5性能稳步提升;随机奖励导致训练不稳定,反向奖励则显著降低性能。
  • Llama3.1在干净数据集上即使使用正确奖励,提升也有限,间接说明Qwen2.5本身数学能力更强,但需正确奖励才能发挥。
  • 污染数据集(如MATH-500)上,随机或错误奖励能提升Qwen2.5性能,这是因为奖励信号意外触发了其对记忆内容的检索;而干净数据集上该现象消失。

研究还观察到,应用官方聊天模板会显著降低Qwen基础模型的性能。Qwen-2.5-7B和Qwen-2.5-Math-7B在启用模板后性能出现明显下降。这表明Qwen-Math-7B看似的“RL收益”在很大程度上反映了模型对模板格式的适应,并且其性能仅收敛到贪婪解码(无模板)的基线,这进一步支持了“记忆而非真正的数学泛化”的观点。

4. 总结

研究发现,某些LLM系列(尤其是Qwen2.5)在流行数学基准上的“显著进步”(甚至随机奖励都能有提升模型表现),并非源于其真正的推理能力提升,而是由于预训练语料中存在数据污染。
具体来说,文章发现给Qwen2.5系列模型问题的部分前缀,模型能给重构出大部分原始问题,并且只给定部分提示,模型也能得到该问题的准确答案。这充分说明Qwen模型是通过记忆而非推理得出答案。

论文通过引入一个干净的、无泄漏的合成数据集RandomCalculation,并进行受控实验,最终证实:只有准确的奖励信号才能带来LLM数学能力的稳定提升,而随机或不正确的奖励并不能。

确实,在RL训练中,奖励信号的真实性是非常重要的,我们在训练过程中需警惕数据污染对评估结果造成的误导。

<think>嗯,用户问“没有qwen2.5吗?”,这可能意味着他们之前提到的qwen2.5版本是否存在,或者是不是正确的名称。之前用户提到过“Hugging Face拉取的qwen2.5的14b”,但根据我之前的回答,可能这个名称并不准确,所以用户现在可能有疑问。 首先,我需要确认Qwen的模型版本。根据我的知识,Qwen团队确实有Qwen1.5和Qwen2的版本,但可能没有官方命名为Qwen2.5的模型。用户可能在某个地方看到了这个名称,或者存在误解。比如,可能有人将Qwen2的某个改进版非正式地称为2.5,但官方可能没有这样的命名。 接下来,我需要检查Hugging Face Hub上的模型库,确认是否存在Qwen2.5。比如,访问Hugging Face的Qwen页面,看看有没有这个版本。如果不存在,可能用户混淆了版本号,或者存在拼写错误。例如,正确的名称可能是Qwen2-14B,而不是Qwen2.5-14B。 然后,我需要考虑用户可能的意图。他们可能想下载最新的Qwen模型,或者听说有2.5版本想尝试。但如果没有这个版本,我需要指出正确的版本,并指导他们如何获取正确的模型。此外,用户可能担心之前的教程是否适用于正确的模型,所以需要说明Qwen2和Qwen1.5的区别,以及如何调整步骤。 还要注意用户的技术水平,他们可能对模型版本不太熟悉,容易混淆数字编号。需要用简单明了的语言解释,避免专业术语过多,同时提供解决方案,比如如何找到正确的模型名称,或者建议他们使用现有的版本进行替代。 另外,用户可能担心之前的教程是否还能使用,是否需要修改。需要确认如果模型名称有变化,代码中的模型名称是否需要相应调整,比如将Qwen2.5改为Qwen2-14B,并确保保存路径正确。 最后,应该提醒用户注意模型许可证和硬件要求,确保他们了解使用这些模型的条件和所需的资源。如果有进一步的疑问,鼓励他们继续提问,以便提供更多帮助。是的</think>,目前 **官方并没有发布名为 `Qwen2.5` 的模型版本**。你可能在一些非官方渠道看到了这个名称,但根据 Hugging Face 官方仓库和通义千问(Qwen)团队的公告,其最新公开的模型系列是: --- ### **1. 当前 Qwen 的主要版本** 1. **Qwen1.5**(2024年初发布): - 包含 **0.5B、1.8B、4B、7B、14B、32B、72B** 等不同规模的开源模型。 - 支持多模态(如 `Qwen1.5-7B-Chat` 对话模型)。 - 官方仓库:[Qwen1.5 on Hugging Face](https://huggingface.co/Qwen) 2. **Qwen2**(2024年6月发布,最新版): - 包含 **0.5B、1.5B、7B、14B、57B-A14B、72B** 等更强大的版本。 - 性能显著提升,支持多语言、长上下文(如 `Qwen2-7B-Instruct`)。 - 官方仓库:[Qwen2 on Hugging Face](https://huggingface.co/Qwen/Q
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cyril_KI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值