大言模型内部可视化——知识图谱揭示的 LLM 内部机制

最新推荐文章于 2025-12-07 20:47:24 发布

原创最新推荐文章于 2025-12-07 20:47:24 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#知识图谱 #人工智能 #chatgpt #LLM #大语言模型

LLM 专栏收录该内容

133 篇文章

订阅专栏

概述

论文地址：https://arxiv.org/pdf/2404.03623
最近，人们对大规模语言模型（LLMs）寄予厚望，它们是在语言理解方面最先进的人工智能模型之一。人们发现，这些模型拥有非凡的常识和事实知识。然而，这些知识是如何结构化并用于推理的仍然是一个谜。

本研究旨在通过探究LLM的内部机制来阐明这些模型的知识利用过程。具体来说，我们致力于澄清 LLM 在判断文本真假时所参考的事实知识，分析这些知识如何在模型的深层结构中转换，并提取特征模式。

所提出的方法使用了一种名为 "激活修补 "的技术，从 LLMs 的潜在表征中提取正式知识，并将其可视化为随时间变化的知识图谱。这有望为 LLM 的事实知识解析机制提供重要见解。提高语言模型的可解释性是一个重要问题，也直接关系到确保人工智能技术的可靠性和安全性。

建议方法

所提方法的核心是从 LLM 的潜在表征中提取事实知识，并将其按时间顺序的演变过程可视化（见图 1）。首先，从 LLM 对输入句子的推理过程中提取隐层潜在表征。接下来，该方法会在对不同输入句子进行推理的过程中动态修补该潜在表征。具体来说，与输入句子的主语或谓语相对应的潜表征会被预先计算的加权平均表征所取代。

通过重复这种替换操作，可以逐步提取出 LLM 内部引用的事实知识。提取的知识以零序谓词逻辑的形式表达，并在时间序列知识图谱上构建。通过这一框架，可以对 LLM 的事实知识解析过程进行动态分析。

特别是，利用节点嵌入进行的定量分析揭示了每个隐藏层的知识过渡模式。我们观察到了一些有趣的过渡，如初始层的实体解析、中间层的知识积累和最终层的表征不佳。这种使用图表示的方法有望为阐明语言模型的内部机制带来新的见解。