Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training

文章主要内容和创新点

主要内容

本文提出了一种名为BBoxER(Black-Box Evolutionary Retrofitting) 的黑盒进化适配方法,用于大型语言模型(LLMs)的后训练。该方法无需梯度信息,通过黑盒优化(仅依赖模型输出的比较)对预训练LLM进行轻量级调整,在保证隐私和鲁棒性的同时提升模型性能。

BBoxER的核心是通过隐式压缩训练数据形成“信息瓶颈”,从而实现以下目标:

  1. 提供严格的理论保证,包括泛化边界、差分隐私、抗数据污染攻击和抗提取攻击能力;
  2. 在推理任务(如数学推理)上通过少量迭代(数百次模型评估)实现性能提升,并在分布外任务上表现出良好的迁移能力;
  3. 作为梯度优化的补充,适用于数据访问受限或隐私敏感的场景。
创新点
  1. BBoxER框架:提出一种通用的黑盒优化适配框架,通过比较型黑盒优化实现训练数据的隐式压缩,支持预训练/微调模型的安全、模块化适配。
  2. 非平凡泛化边界:推导了不依赖模型参数数量、仅由优化轨迹复杂度决定的泛化边界,且训练预算与数据集大小呈线性关系,适用于LLM。
  3. 隐私与鲁棒性保证:设计上确保差分隐私(ε=0,δ=0),提供抗数据污染和抗提取攻击的形式化证明。
  4. 低预算实证验证:在Llama3.1-8B和Qwen-2.5-3B模型上
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值