摘要
大语言模型(LLMs)在需要复杂语言能力的任务中表现出色,如指代消解和隐喻识别/生成。尽管大语言模型能力卓越,但其处理和表示语言知识的内部机制在很大程度上仍是不透明的。以往关于语言机制的研究受限于粒度粗、因果分析不足以及关注点狭窄等问题。在本研究中,我们使用稀疏自动编码器(SAEs)进行了系统全面的因果研究。我们从语音、音系、形态、句法、语义和语用这六个维度提取了广泛的语言特征。通过构建最小对比数据集和反事实句子数据集,对这些特征进行提取、评估和干预。我们引入了两个指标——特征表示置信度(FRC)和特征干预置信度(FIC),以衡量语言特征捕捉和控制语言现象的能力。我们的研究结果揭示了大语言模型中语言知识的内在表示,并展示了控制模型输出的潜力。这项工作有力地证明了大语言模型具备真正的语言知识,为未来研究中更具可解释性和可控性的语言建模奠定了基础。
引言
大语言模型(LLMs)在解决需要不同语言能力水平的任务时表现优异,如依存句法分析(Lin等人,2022;Roy等人,2023)、指代消解(Iyer等人