Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions 2024.finding-优快云博客

Large Language Models Sensitivity to The Order of Options in Multiple-Choice Questions 2024.findings

研究 LLM 鲁棒性

Models: Llama-2-13b (chat version), InstructGPT (text-davinci-003) and GPT-4

位置偏差 (Positional Bias) 。具体表现为模型对多选题中答案选项的排列顺序高度敏感。

回答研究问题（RQ1）：LLM 对选项顺序的敏感程度有多大？

方法：研究者引入了一个叫“敏感性差距”（Sensitivity Gap）的指标。他们对一个多选题的选项内容进行多次（例如10次）随机重排序，（ID顺序不变，依旧是ABCD）然后让LLM回答所有重排后的版本。

输入：一个原始的多项选择题（问题 + N个选项）。

过程：

输出：“敏感性差距”（Sensitivity Gap = acc_max - acc_min）。高差距意味着模型极度不稳定（即存在高度敏感性）。

回答研究问题（RQ2）：是什么导致了这种敏感性？论文的核心猜想是“不确定性 + 位置偏差” 。

2a. 验证“不确定性”

方法：使用LLM的“自我验证”（self-verification）能力。
输入：在步骤一中被证明是“敏感”的问题（即重排后答案会变的问题），以及特定的提示词。
提示词 (Prompt)：“Can more than one of the choices be a highly probable answer to the question? Please respond with ‘yes’ or ‘no’.” (问题中是否有一个以上的选项可能是高概率答案？请回答 ‘yes’ 或 ‘no’)
输出：模型的回答 “yes” 或 “no”。
发现：对于这些敏感样本，LLM 在超过94%的情况下回答了 “yes”，这证实了它们在这些问题上确实感到不确定。

2b. 验证“位置偏差”

方法：通过只保留最可能的几个选项（例如Top-2或Top-3）来“减少样本难度”，并观察模型表现。
输入：原始问题及选项。
过程：
1. （识别Top选项）：首先使用提示词，要求LLM“将选项从最可能到最不可能排序” 。
2. 只保留排序出的 Top-2 或者Top-3 选项，但维持它们在原始问题中的相对顺序。
3. （再次测试）：让LLM回答这个“简化版”的多选题。
输出：LLM在“简化版”问题上的准确率。
发现：论文发现，移除了其他干扰选项，模型的准确率“几乎保持不变或只有微小的增减” 。证明，影响模型决策的不是选项的“难度”，而是那几个高概率选项之间的“相对位置”——即位置偏差。