一、文章主要内容总结
该文章提出了零方向探测(Zero-Direction Probing, ZDP) 这一理论框架,旨在通过Transformer激活的零空间(null directions)来刻画大型语言模型(LLMs)的漂移现象,且无需任务标签或输出评估。
1. 核心背景与问题
LLMs在预训练后常需通过有监督微调、偏好优化、领域专业化等方式适配,这些过程会改变模型内部表征。现有多数漂移检测方法依赖输出或高方差潜在方向“事后推断”,而本文聚焦零方差方向(层激活的左右零空间),探索“仅观察基础模型零空间、无标签/输出访问时,能否对表征漂移进行可证明分析”这一核心问题。
2. 理论基础与关键定义
- 核心矩阵与零空间:设基础模型某层激活矩阵为Hℓ∈Rn×dH_{\ell} \in \mathbb{R}^{n \times d}H<
订阅专栏 解锁全文
1336

被折叠的 条评论
为什么被折叠?



