常规的提示工程虽然能在一定程度上提升 LLM 在各类任务中的表现,却存在核心局限 —— 高度依赖模型一次性准确执行任务的能力。在此背景下,一种通过反馈循环来改进 LLM 系统的新方法应运而生,即 “LLM in a Loop”,它借助评估(evals)机制,为提升 LLM 的输出效果开辟了新的路径。
“LLM in a Loop” 的核心概念
“LLM in a Loop” 本质上是一种自动化的反馈机制,旨在通过自动为 LLM 提供反馈,优化其后续的输出。这一概念的灵感来源于迭代优化的普遍原理,就如同生物进化、商业发展以及机器学习等众多领域一样,通过不断地循环反馈和改进,实现逐步提升。在实际应用中,它的实现方式丰富多样。
以编码代理为例,在解决 GitHub 问题时,它能够接收错误消息和单元测试结果。当代码出现错误或未能通过单元测试时,这些信息作为反馈,促使编码代理调整代码,进而生成更优的解决方案。这种方式使得代码在不断迭代中趋于完善,提高了代码的质量和功能。
自我博弈系统则模拟不同观点之间的辩论。在生成论点的过程中,系统内部的不同 “观点” 相互碰撞、交流,通过这种模拟辩论,系统可以从多个角度审视问题,生成更具说服力的论点。这一过程不仅丰富了论点的内容,还提升了其逻辑的严密性和可信度。
YouTube 标题生成器会借助一个与人类偏好相符的评判 LLM 来获取反馈。评判 LLM 会根据一系列因素,如标题的吸