本文是LLM系列文章,针对《Weak-to-Strong Search: Align Large Language Models via Searching over Small Language Models》的翻译。
摘要
大型语言模型通常会进行微调以符合人类的偏好。然而,微调大型语言模型可能具有挑战性。在这项工作中,我们引入了弱到强搜索,将大型语言模型的对齐框架作为测试时贪婪搜索,以在从冻结的大型模型中采样时最大化小型调整模型和未调整模型之间的对数似然差异。该方法既可用作(i)避免直接调整大型模型的计算高效模型扩展策略,也可用作(ii)弱到强泛化的实例,以弱测试时间指导增强强模型。根据经验,我们展示了跨不同任务的弱到强搜索的灵活性。在受控情感生成和摘要中,我们使用调整和未调整的 gpt2 来有效地改善大型模型的对齐,而无需额外的训练。至关重要的是,在更困难的指令跟踪基准 AlpacaEval 2.0 中,我们表明重用现成的小模型(例如 zephyr-7b-beta 及其未调整版本)可以显着提高白棋和白棋的长度控制获胜率-box 和黑盒大型模型对抗 gpt-4-turbo(例如,34.4 → 37.9 Llama-3-70B-Instruct 和 gpt-3.5-turbo-instruct 为 16.0 → 20.1),尽管小型模型的胜率较低 ≈ 10.0。
1 引言
2 相关工作
3 前言
4 从弱到强的搜索
5 实验
6 讨论
我们提出了从弱到强的搜索,这是一种保持大语言模型冻结的对齐方法,同时通过对小语言模型的测试时贪婪搜索来引导其解码。该方法基于这样的认识:小调
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



