Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions 2024.findings
研究 LLM 鲁棒性
Models: Llama-2-13b (chat version), InstructGPT (text-davinci-003) and GPT-4
位置偏差 (Positional Bias) 。具体表现为模型对多选题中答案选项的排列顺序高度敏感 。
步骤一:量化敏感性(Sensitivity Gap)
回答研究问题(RQ1):LLM 对选项顺序的敏感程度有多大?
方法:研究者引入了一个叫“敏感性差距”(Sensitivity Gap)的指标 。他们对一个多选题的选项内容进行多次(例如10次)随机重排序 ,(ID顺序不变,依旧是ABCD)然后让LLM回答所有重排后的版本。
输入:一个原始的多项选择题(问题 + N个选项)。
过程:
- 保留原始顺序,让LLM回答,得到准确率(例如
acc_original)。 - 对选项进行 N 次随机重排(Random Reordering)。
- 让LLM回答这 N 个新版本的问题。
- 计算所有重排版本中的最高准确率(
acc_max)和最低准确率(acc_min)。
输出:“敏感性差距”(Sensitivity Gap = acc_max - acc_min)。高差距意味着模型极度不稳定(即存在高度敏感性)。
步骤二:探究致偏原因(Uncertainty + Positional Bias)
回答研究问题(RQ2):是什么导致了这种敏感性?论文的核心猜想是“不确定性 + 位置偏差” 。
2a. 验证“不确定性”
- 方法:使用LLM的“自我验证”(self-verification)能力。
- 输入:在步骤一中被证明是“敏感”的问题(即重排后答案会变的问题),以及特定的提示词。
- 提示词 (Prompt):“Can more than one of the choices be a highly probable answer to the question? Please respond with ‘yes’ or ‘no’.” (问题中是否有一个以上的选项可能是高概率答案?请回答 ‘yes’ 或 ‘no’)
- 输出:模型的回答 “yes” 或 “no”。
- 发现:对于这些敏感样本,LLM 在超过94%的情况下回答了 “yes”,这证实了它们在这些问题上确实感到不确定 。
2b. 验证“位置偏差”
-
方法:通过只保留最可能的几个选项(例如Top-2或Top-3)来“减少样本难度”,并观察模型表现 。
-
输入:原始问题及选项 。
-
过程:
- (识别Top选项):首先使用提示词,要求LLM“将选项从最可能到最不可能排序” 。
- 只保留排序出的 Top-2 或者Top-3 选项,但维持它们在原始问题中的相对顺序 。
- (再次测试):让LLM回答这个“简化版”的多选题。
-
输出:LLM在“简化版”问题上的准确率。
-
发现:论文发现,移除了其他干扰选项,模型的准确率“几乎保持不变或只有微小的增减” 。证明,影响模型决策的不是选项的“难度”,而是那几个高概率选项之间的“相对位置”——即位置偏差 。
步骤三:识别放大和减弱偏差的模式
输入:由步骤二(2b)识别出的 Top-2 选项。
输出:两类模式:(1) 放大偏差 (Amplify Bias) 的模式;(2) 减弱偏差 (Mitigate Bias) 的模式。
例子(模式结论):
放大偏差 (Amplify):将 Top-2 选项分别放在第一个和最后一个位置(例如,选项A和选项E)。这种布局最能激化模型的位置偏差,导致其表现(无论对错)更加极端。
减弱偏差 (Mitigate):将 Top-2 选项放在相邻的位置(例如,选项A和B,或B和C)。这种布局可以最小化位置偏差的影响,使模型更鲁棒。
步骤四:提出校准(去偏)方法
回答研究问题(RQ3):如何提高LLM的鲁棒性?
方法:论文测试了两种方法,效果最好的是**“多数投票”(Majority Vote)**。
输入:一个需要回答的多选题。
过程:
- 对该问题的选项进行 N 次(例如10次)随机重排序 。
- 让 LLM 分别回答这 N 个重排后的版本。
- 收集 N 个答案。
- 统计 N 个答案中出现次数最多的那个答案,作为最终答案(即“多数投票”)。
输出:一个经过校准的、更鲁棒的最终答案。


被折叠的 条评论
为什么被折叠?



