Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift

一、文章主要内容总结

该文章提出了零方向探测(Zero-Direction Probing, ZDP) 这一理论框架,旨在通过Transformer激活的零空间(null directions)来刻画大型语言模型(LLMs)的漂移现象,且无需任务标签或输出评估。

1. 核心背景与问题

LLMs在预训练后常需通过有监督微调、偏好优化、领域专业化等方式适配,这些过程会改变模型内部表征。现有多数漂移检测方法依赖输出或高方差潜在方向“事后推断”,而本文聚焦零方差方向(层激活的左右零空间),探索“仅观察基础模型零空间、无标签/输出访问时,能否对表征漂移进行可证明分析”这一核心问题。

2. 理论基础与关键定义

  • 核心矩阵与零空间:设基础模型某层激活矩阵为Hℓ∈Rn×dH_{\ell} \in \mathbb{R}^{n \times d}H<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值