Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models

SAELING框架解读大语言模型语言机制

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量71

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/146034079

LLM Daily 专栏收录该内容

1691 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

摘要

大语言模型（LLMs）在需要复杂语言能力的任务中表现出色，如指代消解和隐喻识别/生成。尽管大语言模型能力卓越，但其处理和表示语言知识的内部机制在很大程度上仍是不透明的。以往关于语言机制的研究受限于粒度粗、因果分析不足以及关注点狭窄等问题。在本研究中，我们使用稀疏自动编码器（SAEs）进行了系统全面的因果研究。我们从语音、音系、形态、句法、语义和语用这六个维度提取了广泛的语言特征。通过构建最小对比数据集和反事实句子数据集，对这些特征进行提取、评估和干预。我们引入了两个指标——特征表示置信度（FRC）和特征干预置信度（FIC），以衡量语言特征捕捉和控制语言现象的能力。我们的研究结果揭示了大语言模型中语言知识的内在表示，并展示了控制模型输出的潜力。这项工作有力地证明了大语言模型具备真正的语言知识，为未来研究中更具可解释性和可控性的语言建模奠定了基础。
在这里插入图片描述

引言

大语言模型（LLMs）在解决需要不同语言能力水平的任务时表现优异，如依存句法分析（Lin等人，2022；Roy等人，2023）、指代消解（Iyer等人，2023）和隐喻解释（Wachowiak和Gromann，2023；Yerukola等人，2024；Tian等人，2024）。虽然它们的语言能力主要归因于大规模预训练和模型规模带来的能力涌现（Manning等人，2020；Allen-Zhu和Li，2023；Mahowald等人，2024），但大语言模型处理这些语言结构的潜在机制仍未得到充分探索（Sab