Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions 2024.finding

Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions 2024.findings

研究 LLM 鲁棒性

Models: Llama-2-13b (chat version), InstructGPT (text-davinci-003) and GPT-4

位置偏差 (Positional Bias) 。具体表现为模型对多选题中答案选项的排列顺序高度敏感 。

步骤一:量化敏感性(Sensitivity Gap)

回答研究问题(RQ1):LLM 对选项顺序的敏感程度有多大?

方法:研究者引入了一个叫“敏感性差距”(Sensitivity Gap)的指标 。他们对一个多选题的选项内容进行多次(例如10次)随机重排序 ,(ID顺序不变,依旧是ABCD)然后让LLM回答所有重排后的版本。

输入:一个原始的多项选择题(问题 + N个选项)。

过程

  1. 保留原始顺序,让LLM回答,得到准确率(例如 acc_original)。
  2. 对选项进行 N 次随机重排(Random Reordering)。
  3. 让LLM回答这 N 个新版本的问题。
  4. 计算所有重排版本中的最高准确率(acc_max)和最低准确率(acc_min)。

输出:“敏感性差距”(Sensitivity Gap = acc_max - acc_min)。高差距意味着模型极度不稳定(即存在高度敏感性)。

步骤二:探究致偏原因(Uncertainty + Positional Bias)

回答研究问题(RQ2):是什么导致了这种敏感性?论文的核心猜想是“不确定性 + 位置偏差” 。

2a. 验证“不确定性”

  • 方法:使用LLM的“自我验证”(self-verification)能力。
  • 输入:在步骤一中被证明是“敏感”的问题(即重排后答案会变的问题),以及特定的提示词。
  • 提示词 (Prompt):“Can more than one of the choices be a highly probable answer to the question? Please respond with ‘yes’ or ‘no’.” (问题中是否有一个以上的选项可能是高概率答案?请回答 ‘yes’ 或 ‘no’)
  • 输出:模型的回答 “yes” 或 “no”。
  • 发现:对于这些敏感样本,LLM 在超过94%的情况下回答了 “yes”,这证实了它们在这些问题上确实感到不确定 。

2b. 验证“位置偏差”

  • 方法:通过只保留最可能的几个选项(例如Top-2或Top-3)来“减少样本难度”,并观察模型表现 。

  • 输入:原始问题及选项 。

  • 过程

    1. (识别Top选项):首先使用提示词,要求LLM“将选项从最可能到最不可能排序” 。
    2. 只保留排序出的 Top-2 或者Top-3 选项,但维持它们在原始问题中的相对顺序 。
    3. (再次测试):让LLM回答这个“简化版”的多选题。
  • 输出:LLM在“简化版”问题上的准确率。

  • 发现:论文发现,移除了其他干扰选项,模型的准确率“几乎保持不变或只有微小的增减” 。证明,影响模型决策的不是选项的“难度”,而是那几个高概率选项之间的“相对位置”——即位置偏差 。

步骤三:识别放大和减弱偏差的模式

输入:由步骤二(2b)识别出的 Top-2 选项。

输出:两类模式:(1) 放大偏差 (Amplify Bias) 的模式;(2) 减弱偏差 (Mitigate Bias) 的模式。

例子(模式结论)

放大偏差 (Amplify):将 Top-2 选项分别放在第一个和最后一个位置(例如,选项A和选项E)。这种布局最能激化模型的位置偏差,导致其表现(无论对错)更加极端。

减弱偏差 (Mitigate):将 Top-2 选项放在相邻的位置(例如,选项A和B,或B和C)。这种布局可以最小化位置偏差的影响,使模型更鲁棒。

步骤四:提出校准(去偏)方法

回答研究问题(RQ3):如何提高LLM的鲁棒性?

方法:论文测试了两种方法,效果最好的是**“多数投票”(Majority Vote)**。

输入:一个需要回答的多选题。

过程

  1. 对该问题的选项进行 N 次(例如10次)随机重排序 。
  2. 让 LLM 分别回答这 N 个重排后的版本。
  3. 收集 N 个答案。
  4. 统计 N 个答案中出现次数最多的那个答案,作为最终答案(即“多数投票”)。

输出:一个经过校准的、更鲁棒的最终答案。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值