稀疏自编码器实现可控LLM分类的自正则化技术

摘要

现代文本分类方法严重依赖大语言模型(LLM)的上下文嵌入。与人工设计的特征相比,这些嵌入为分类模型训练提供了自动有效的表示,但也带来了挑战:由于LLM嵌入的不透明性和难以解释性,我们无法手动移除非预期特征(如敏感或任务无关特征)以保证监管合规性或提升分类模型的泛化能力。

方法

提出了一种新颖的框架来识别和正则化LLM潜在空间中的非预期特征。具体包括:

  1. 预训练稀疏自编码器(SAE):从LLM潜在空间中提取可解释特征
  2. 任务特定微调:在任务特定数据集上进一步微调SAE以确保其捕获任务相关特征
  3. 自正则化设计:在分类模型训练过程中,通过最小化分类器权重与已识别非预期特征之间的相似性,设计简单有效的正则化器来消除这些特征对分类的影响

实验验证

在三个实际任务中评估了所提框架:

  • 毒性聊天检测
  • 奖励建模
  • 疾病诊断

结果表明,通过正则化那些与任务语义不相关的特征,所提出的自正则化框架能够有效提升分类器的泛化能力。

意义

本研究首次利用可解释特征在LLM潜在空间上实现可控文本分类,为解决泛化性、公平性和隐私挑战提供了新思路。代码和数据已公开。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值