本文是LLM系列文章,针对《Do Large Language Models Mirror Cognitive Language Processing?》的翻译。
摘要
大型语言模型在文本理解和逻辑推理方面表现出了非凡的能力,在许多认知任务中达到甚至超过了人类水平。由于LLM是从人类语言认知的大量文本输出中训练出来的,因此很自然地会问LLM是否反映了认知语言处理。或者LLM在多大程度上类似于认知语言处理?在本文中,我们提出了一种新的方法,在LLM表示和人类认知信号之间架起桥梁,以评估LLM模拟认知语言处理的有效性。我们使用代表性相似性分析(RSA)来测量大脑的16个主流LLM和fMRI信号之间的一致性。我们实证研究了各种因素(例如,模型缩放、对齐训练、指令附加)对LLM大脑对齐的影响。实验结果表明,模型缩放与LLM大脑相似性呈正相关,而对齐训练可以显著提高LLM大脑的相似性。此外,广泛的LLM评估(例如,MMLU、Chatbot Arena)的性能与LLM大脑相似性高度相关。