随机奖励能提升Qwen数学表现？本质是数据污染

最新推荐文章于 2025-07-23 21:19:02 发布

Cyril_KI

最新推荐文章于 2025-07-23 21:19:02 发布

阅读量1k

点赞数 18

CC 4.0 BY-SA版权

分类专栏： LLM Papers 文章标签： llm rlhf grpo reward model ppo

本文链接：https://blog.youkuaiyun.com/Cyril_KI/article/details/149369707

Papers 同时被 2 个专栏收录

50 篇文章

订阅专栏

LLM

22 篇文章

订阅专栏

文章目录

前言
1. 研究背景与动机
- 1.1 研究背景
- 1.2 研究动机
2. 核心方法解析
3. 实验
4. 总结

前言

前段时间一篇名为《Spurious Rewards: Rethinking Training Signals in RLVR》的paper在网上流传甚广，这篇文章指出随机奖励能够大幅度提升模型表现，当时很多人分析指出，这可能是一种大模型的一种“能力唤醒”。

不过今天这篇文章解释了随机奖励能提升模型表现的原因：纯粹是因为记忆！研究发现，某些LLM系列（尤其是Qwen2.5）在流行数学基准上的“显著进步”（甚至随机奖励都能有提升模型表现），并非源于其真正的推理能力提升，而是由于预训练语料中存在数据污染。

具体来说，文章发现给Qwen2.5系列模型输入问题的部分前缀，模型能给重构出大部分原始问题，并且只给定部分提示，模型也能得到该问题的准确答案。这充分说明Qwen模型是通过记忆而非推理得出答案。大概率是预训练阶段很多数据和一些benchmark有很大程度的重合。

论文通过引入一个干净的、无泄漏的合成数据集RandomCalculation，并进行受控实验，最终证实：只有准确的奖励信号才能带来LLM数学能力的稳定提升，而随机或不正确的奖励并不能。

1. 研究背景与动机

1.1 研究背景

近年来，强化学习技术被广泛用于提升大语言模型的推理能力，尤其在数学推理任务中，Qwen2.5等模型在MATH-500、AMC、AIME等基准上表现优异，甚至有研究称随机或错误奖励信号也能提升其性能。但事实是：

模型特异性差异：Qwen2.5在RL方法下性能显著提升，但Llama等其他模型在相同条件下收效甚微，因此其提升可能并非源于通用的推理能力增强。
奖励信号的“反常有效性”：随机或错误奖励能提升Qwen2.5的表现，这与传统RL依赖准确奖励信号的认知冲突，其背后机制存疑。
基准可靠性争议：Qwen2.5的预训练数据包含海量网络文本，可能与常用数学基准存在重叠（数据污染），导致其性能评估结果不可靠。

1.2 研究动机

论文的探索源于以下关键疑问：

Qwen2.5在数学基准上的性能提升，是源于真实推理能力的增强，还是对基准数据的记忆？例如，当仅提供问题的部分前缀时，Qwen2.5能高精度补全问题并给出正确答案，而Llama无法做到，这暗示数据污染可能是主因。
如何设计可靠的评估方法，排除数据污染的干扰，准确衡量RL对模型推理能力的真实提升？
不同奖励信号（正确、随机、反向）对模型性能的影响是否依赖于数据清洁度？
这些疑问指向核心问题：当前基于RL的LLM推理能力评估，是否因数据污染而产生了不可靠结论？论文旨在通过系统性实验揭示数据污染的影响，并提出更可靠的评估框架。

2. 核心方法解析

2.1 数据污染评估方法

核心思想：通过量化模型对基准数据的记忆程度，判断是否存在数据污染。
（1）部分提示补全率 (Partial-Prompt Completion Rate)

核心思想: 衡量模型在给定问题部分前缀的情况下，重构问题其余部分的能力。如果模型能够高度准确地补全原始问题，则可能表明其是在“记忆”而非进行真正的推理，因为其可能在预训练阶段已经看到了完整的基准问题。
衡量方法:
- ROUGE-L: 这是一种基于重叠的度量，通过计算生成文本和参考文本之间最长公共子序列（LCS）的长度来评估文本的相似性。ROUGE-L得分越高，表示模型生成的补全内容与原始问题的剩余部分越相似。
- 精确匹配（Exact Match, EM）: EM是一个更严格的二元指标，它检查模型生成的补全内容是否与原始问题的剩余部分完全一致。高EM值直接表明模型能够逐字回忆出部分提示之后的原文内容，这是数据污染的一个强有力信号。
指标意义: 较高的部分提示补全率，特别是高EM值，强烈暗示模型可能已经“记住”了这些问题，而非通过推理得出答案。

（2）部分提示答案准确率 (Partial-Prompt Answer Accuracy)

核心思想: 评估模型在仅接收到问题部分内容的情况下，仍然能够生成正确答案的能力。这进一步验证了模型是否在记忆答案，而不是通过推理过程计算得出。
衡量方法:
- 向模型提供一个截断后的问题（例如，原始问题的A%），然后允许模型自由生成不受限制的续写。
- 接着，检查这些续写中是否包含了原始问题的正确答案。
指标意义: 如果模型在仅有部分问题提示的情况下，其生成的续写中频繁包含正确答案，这表明模型可能已经存储了完整的“问题-答案”对，并且能够从部分信息中“恢复”答案，从而规避了实际的推理过程。高准确率同样是数据污染的一个关键迹象。

2.2 RandomCalculation数据集构建

核心思想：确保数据集中的每个数学问题都是完全合成的，并且其生成时间晚于用于训练Qwen2.5等模型的预训练语料库的收集时间。这从根本上避免了模型通过记忆预训练数据来“解决”问题的可能性，从而能够真实地评估模型的推理能力。

自动化生成器:
- 算术表达式生成: 数据集利用一个自动生成器来创建算术表达式。这意味着问题不是从现有的、可能已被LLM见过的语料中提取，而是通过编程方式动态生成的。
- 可变长度和难度: 生成器能够创建任意长度的算术表达式，并且可以控制问题的难度。这使得数据集非常灵活，能够适应不同复杂度的评估需求，并测试模型在泛化到更长、更复杂问题上的能力。
- 操作数和运算符的随机性: 表达式中的操作数（数字）和运算符（如加、减、乘、除）都是均匀随机选择的。这种随机性确保了数据集的多样性，防止模型通过学习特定模式或模板来作弊，而是必须进行实际的算术推理。
无数据泄漏保证:
- 时间戳控制: 最关键的一点是，数据集中的每个实例都被确保其生成时间晚于Qwen2.5等模型的公开发布日期。这意味着在这些模型进行预训练时，RandomCalculation数据集中的问题尚未存在，从而彻底排除了数据泄漏的可能性。这一特性是RandomCalculation数据集相比其他常见数学基准（如MATH-500）的显著优势。

2.3 RLVR 实验设计

核心思想：在干净数据集上，对比不同奖励信号对模型性能的影响，验证奖励质量的重要性。
在这里插入图片描述
公式中a为模型输出，b为标准答案。

考虑到算术表达式的计算结果可能包含高精度的小数，传统的0/1离散奖励（即完全正确才给1，否则给0）可能过于严苛，不利于强化学习的稳定训练。
为此，RandomCalculation设计了一个连续的奖励函数，奖励值范围在0到1之间。
这个连续奖励函数同时惩罚模型预测与参考答案之间的绝对误差和相对误差。这意味着即使模型没有给出完全精确的答案，只要其预测与真实答案足够接近，也能获得一定的奖励，从而为强化学习提供更平滑、更稳定的学习信号。

3. 实验

3.1 实验设置

模型选择：Qwen2.5系列（7B、7B-Instruct、Math-7B等）和Llama3.1-8B（参数规模相近，用于对比）。
评估数据集：
- 污染数据集：MATH-500、AMC、AIME2024（可能与Qwen2.5预训练数据重叠）。
- 干净数据集：LiveMathBench（2025年发布，Qwen2.5未见过）、RandomCalculation（全新生成）。
评估指标：ROUGE-L（文本补全相似度）、EM（精确匹配率）、准确率（答案正确性）。

3.2 实验结果

3.2.1 数据污染

在这里插入图片描述
如上图所示，随机奖励确实可以提高Qwen系列的表现，但在llama上是没有效果的。

在MATH-500数据集上，Qwen2.5-Math-7B展现出极高的部分提示补全率和答案准确率，这与Llama3.1-8B的表现形成鲜明对比。然而，当在新发布的、无污染的LiveMathBench数据集上测试时，Qwen模型的这些指标急剧下降，与Llama模型处于同一水平。这有力证明了Qwen模型在MATH-500上的所谓“收益”主要源于数据污染和记忆化。

3.2.2 干净数据集上的RL效果

在这里插入图片描述

在RandomCalculation上，仅正确奖励能使Qwen2.5性能稳步提升；随机奖励导致训练不稳定，反向奖励则显著降低性能。
Llama3.1在干净数据集上即使使用正确奖励，提升也有限，间接说明Qwen2.5本身数学能力更强，但需正确奖励才能发挥。
污染数据集（如MATH-500）上，随机或错误奖励能提升Qwen2.5性能，这是因为奖励信号意外触发了其对记忆内容的检索；而干净数据集上该现象消失。

研究还观察到，应用官方聊天模板会显著降低Qwen基础模型的性能。Qwen-2.5-7B和Qwen-2.5-Math-7B在启用模板后性能出现明显下降。这表明Qwen-Math-7B看似的“RL收益”在很大程度上反映了模型对模板格式的适应，并且其性能仅收敛到贪婪解码（无模板）的基线，这进一步支持了“记忆而非真正的数学泛化”的观点。

4. 总结

研究发现，某些LLM系列（尤其是Qwen2.5）在流行数学基准上的“显著进步”（甚至随机奖励都能有提升模型表现），并非源于其真正的推理能力提升，而是由于预训练语料中存在数据污染。
具体来说，文章发现给Qwen2.5系列模型问题的部分前缀，模型能给重构出大部分原始问题，并且只给定部分提示，模型也能得到该问题的准确答案。这充分说明Qwen模型是通过记忆而非推理得出答案。

确实，在RL训练中，奖励信号的真实性是非常重要的，我们在训练过程中需警惕数据污染对评估结果造成的误导。