本文是LLM系列文章,针对《Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models》的翻译。
摘要
大型语言模型通常会进行微调以符合人类的偏好。然而,微调大型语言模型可能具有挑战性。在这项工作中,我们引入了弱到强搜索,将大型语言模型的对齐框架作为测试时贪婪搜索,以在从冻结的大型模型中采样时最大化小型调整模型和未调整模型之间的对数似然差异。该方法既可用作(i)避免直接调整大型模型的计算高效模型扩展策略,也可用作(ii)弱到强泛化的实例,以弱测试时间指导增强强模型。根据经验,我们展示了跨不同任务的弱到强搜索的灵活性。在受控情感生成和摘要中,我们使用调整和未调整的 gpt2 来有效地改善大型模型的对齐,而无需额外的训练。至关重要的是,在更困难的指令跟踪基准 AlpacaEval 2.0 中,我们表明重用现成的小模型(例如 zephyr-7b-beta 及其未调整版本)可以显着提高白棋和白棋的长度控制获胜率-box 和黑盒大型模型对抗 gpt-4-turbo(例如,34.4 → 37.9 Llama-3-70B-Instruct 和 gpt-3.5-turbo-instruct 为 16.0 → 20.1),尽管小型模型的胜率较低 ≈ 10.0。<