本文是LLM系列文章,针对《Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents》的翻译。
摘要
大型语言模型(LLM)在充当代理方面取得了成功,代理通过搜索引擎等工具与环境交互。然而,LLM是为语言生成而优化的,而不是在训练或调整过程中使用工具,这限制了它们作为代理的有效性。为了解决这个问题,之前的工作首先收集了LLM和环境之间的交互轨迹,只使用成功完成任务的轨迹来微调较小的模型,这使得微调数据稀缺,获取数据既困难又昂贵。丢弃失败的轨迹也会导致数据和资源的显著浪费,并限制微调过程中可能的优化路径。在本文中,我们认为不成功的轨迹提供了有价值的见解,LLM可以通过适当的质量控制和微调策略从这些轨迹中学习。通过简单地添加前缀或后缀,告诉模型是否在训练过程中生成成功的轨迹,我们在数学推理、多跳问答和策略问答任务中大幅提高了模型性能。我们进一步分析了推理结果,发现我们的方法在有价值的信息和不成功轨迹中的误差之间提供了更好的折衷。据我们所知,我们是第一个证明负轨迹的价值及其在代理优化场景中的应用的人。我们的研究结果为开发更好的代理调优方法和低资源数据使用技术提供了指导。