Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models

摘要

大语言模型(LLMs)在需要复杂语言能力的任务中表现出色,如指代消解和隐喻识别/生成。尽管大语言模型能力卓越,但其处理和表示语言知识的内部机制在很大程度上仍是不透明的。以往关于语言机制的研究受限于粒度粗、因果分析不足以及关注点狭窄等问题。在本研究中,我们使用稀疏自动编码器(SAEs)进行了系统全面的因果研究。我们从语音、音系、形态、句法、语义和语用这六个维度提取了广泛的语言特征。通过构建最小对比数据集和反事实句子数据集,对这些特征进行提取、评估和干预。我们引入了两个指标——特征表示置信度(FRC)和特征干预置信度(FIC),以衡量语言特征捕捉和控制语言现象的能力。我们的研究结果揭示了大语言模型中语言知识的内在表示,并展示了控制模型输出的潜力。这项工作有力地证明了大语言模型具备真正的语言知识,为未来研究中更具可解释性和可控性的语言建模奠定了基础。
在这里插入图片描述

引言

大语言模型(LLMs)在解决需要不同语言能力水平的任务时表现优异,如依存句法分析(Lin等人,2022;Roy等人,2023)、指代消解(Iyer等人࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值