摘要
现代文本分类方法严重依赖大语言模型(LLM)的上下文嵌入。与人工设计的特征相比,这些嵌入为分类模型训练提供了自动有效的表示,但也带来了挑战:由于LLM嵌入的不透明性和难以解释性,我们无法手动移除非预期特征(如敏感或任务无关特征)以保证监管合规性或提升分类模型的泛化能力。
方法
提出了一种新颖的框架来识别和正则化LLM潜在空间中的非预期特征。具体包括:
- 预训练稀疏自编码器(SAE):从LLM潜在空间中提取可解释特征
- 任务特定微调:在任务特定数据集上进一步微调SAE以确保其捕获任务相关特征
- 自正则化设计:在分类模型训练过程中,通过最小化分类器权重与已识别非预期特征之间的相似性,设计简单有效的正则化器来消除这些特征对分类的影响
实验验证
在三个实际任务中评估了所提框架:
- 毒性聊天检测
- 奖励建模
- 疾病诊断
结果表明,通过正则化那些与任务语义不相关的特征,所提出的自正则化框架能够有效提升分类器的泛化能力。
意义
本研究首次利用可解释特征在LLM潜在空间上实现可控文本分类,为解决泛化性、公平性和隐私挑战提供了新思路。代码和数据已公开。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码

2015

被折叠的 条评论
为什么被折叠?



