该文章通过机制分析揭示,大型语言模型(LLMs)的内部状态仅编码知识回忆模式,无法区分基于主题知识的幻觉与正确输出,证明其“不知己所不知”,并指出当前幻觉检测和拒绝调优方法的局限性。
一、文章主要内容总结
1. 研究背景与核心问题
- 现有研究认为LLMs的内部状态(如隐藏层、注意力权重)可用于检测幻觉,暗示其“知道自己不知道什么”,但LLMs常依赖数据中的虚假关联产生事实错误,引发“内部计算能否可靠区分事实与幻觉”的疑问。
- 作者将幻觉分为两类:关联幻觉(AH)(依赖主题知识但事实错误,如“奥巴马出生于芝加哥”)和非关联幻觉(UH)(与主题知识无关,如“奥巴马出生于东京”),核心探究两类幻觉在LLMs内部处理中的差异。
2. 关键研究发现
- 内部信息流动差异:AH与正确输出(FA)遵循相同的信息流动路径(早期层主题表征→中层主题与最后token的注意力传递→后期层最后token表征),内部状态高度重叠;UH则不依赖主题信息,信息流动路径完全不同。
- 表征特征差异:
- 主题表征:AH的主题表征 norms 与FA接近(比值≈0.99),UH的 norms 显著更低(起始比值≈0.96),且与模型参数知识的对齐度更弱。
- 注意力流动:AH与FA的中层注意力贡献强度相当,UH则明显更弱。
- 最后token表征:
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



