文章主要内容和创新点
主要内容
本文提出了一种名为BBoxER(Black-Box Evolutionary Retrofitting) 的黑盒进化适配方法,用于大型语言模型(LLMs)的后训练。该方法无需梯度信息,通过黑盒优化(仅依赖模型输出的比较)对预训练LLM进行轻量级调整,在保证隐私和鲁棒性的同时提升模型性能。
BBoxER的核心是通过隐式压缩训练数据形成“信息瓶颈”,从而实现以下目标:
- 提供严格的理论保证,包括泛化边界、差分隐私、抗数据污染攻击和抗提取攻击能力;
- 在推理任务(如数学推理)上通过少量迭代(数百次模型评估)实现性能提升,并在分布外任务上表现出良好的迁移能力;
- 作为梯度优化的补充,适用于数据访问受限或隐私敏感的场景。
创新点
- BBoxER框架:提出一种通用的黑盒优化适配框架,通过比较型黑盒优化实现训练数据的隐式压缩,支持预训练/微调模型的安全、模块化适配。
- 非平凡泛化边界:推导了不依赖模型参数数量、仅由优化轨迹复杂度决定的泛化边界,且训练预算与数据集大小呈线性关系,适用于LLM。
- 隐私与鲁棒性保证:设计上确保差分隐私(ε=0,δ=0),提供抗数据污染和抗提取攻击的形式化证明。
- 低预算实证验证:在Llama3.1-8B和Qwen-2.5-3B模型上