MathRobust-LV: Evaluation of Large Language Models’ Robustness to Linguistic Variations

该文章提出了评估大语言模型数学推理语言鲁棒性的新基准MathRobust-LV,通过控制变量生成表层表述变化但数学逻辑不变的题目,揭示了模型在该维度的脆弱性,尤其小模型性能下降显著,而前沿闭源模型相对稳定。

一、文章主要内容

  1. 研究背景:当前大语言模型在数学基准测试(如GSM8K、MATH)中表现优异,但对语言表述变化的鲁棒性未被充分探索,且现有研究多聚焦IMO等难题,忽视了教育场景中实际使用的高中难度数学题。
  2. 核心方法:构建MathRobust-LV基准,包含130道种子题(65道来自MATH数据集、65道来自AoPS竞赛题)及520道变体题。变体题仅改变题目表层信息(如名称、场景、变量符号),严格保留数值结构、逻辑和答案,模拟教师出题时的表述变化。
  3. 实验设计:在34个不同规模、类型的开源与闭源模型上进行零样本测试,计算基线准确率(原始题)与变体准确率(改写题)的差值,评估模型鲁棒性;同时对比模型在MATH数据集与AoPS竞赛题上的性能差异。
  4. 关键结果
    • 多数模型在变体题上准确率下降,小模型(如OpenMath-Nemotron-1.5B)下降幅度达9%-11%,中大型模型下降2%-6%;
    • 闭源前沿模型(GPT-5、Gemini-2.5pro)表现更稳定,Gemini-2.5pro甚至有0.21%的准确率提升;
    • 所有模型在AoPS竞赛题上的准确率远低于MATH数据集,部分模型差距达30-50个百分点。
    • </
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值