主要内容 研究背景:大语言模型(LLMs)发展迅速,基于选择题(MCQ)基准的评估方法广泛应用,但基准污染问题影响评估可靠性。 研究方法 预调查:将MMLU基准测试集的MCQ分为记忆和非记忆子集,通过对比模型在不同子集上的准确率,发现LLMs在记忆的MCQ上表现更差,表明存在死记硬背和真正能力学习两种现象。 量化记忆:提出一种基于生成序列中低概率词元的记忆量化指标 F m F_{m}