该文章提出GraphGhost框架,将大型语言模型(LLMs)的神经元激活与信号传播转化为图结构,以此揭示LLMs推理能力背后的结构机制,为分析、干预和理解LLMs推理的结构基础提供了新工具。
一、文章主要内容
- 研究背景:LLMs在文本结构信息捕捉、推理规划等方面表现出色,但内部推理结构的构建与利用机制尚不明确,现有基于玩具示例的研究难以适用于复杂真实数据。
- GraphGhost框架核心
- 图结构定义:将神经元视为节点,神经元间的信号传播视为有向边,通过CircuitTracer工具获取每个样本的归因图,再聚合形成全局加权图,反映跨样本的信号传播模式。
- 关键特性:框架能识别激活神经元与沉默神经元,沉默神经元可应对不同领域未见过的输入;借助图算法(如PageRank)可定位控制下一个token预测的关键节点。
- 实验与分析
- 实验设置:在Qwen、Llama、DeepSeek等系列模型,以及数学推理(GSM8K、MAWPS)、逻辑推理(ProntoQA、BoolQA)、科学推理(ARC-Easy、QASC)三类数据集上验证。
- 核心发现:不同模型和数据集存在共享与特定的推理行为;关键神经元节点被编辑后,会导致LLMs推理崩溃,改变逻辑流与语义理解;高层神经元更易直接连接输出层神经元,影响推理逻
订阅专栏 解锁全文
1391

被折叠的 条评论
为什么被折叠?



