常规的提示工程虽然能在一定程度上提升 LLM 在各类任务中的表现,却存在核心局限 —— 高度依赖模型一次性准确执行任务的能力。在此背景下,一种通过反馈循环来改进 LLM 系统的新方法应运而生,即 “LLM in a Loop”,它借助评估(evals)机制,为提升 LLM 的输出效果开辟了新的路径。

“LLM in a Loop” 的核心概念
“LLM in a Loop” 本质上是一种自动化的反馈机制,旨在通过自动为 LLM 提供反馈,优化其后续的输出。这一概念的灵感来源于迭代优化的普遍原理,就如同生物进化、商业发展以及机器学习等众多领域一样,通过不断地循环反馈和改进,实现逐步提升。在实际应用中,它的实现方式丰富多样。
以编码代理为例,在解决 GitHub 问题时,它能够接收错误消息和单元测试结果。当代码出现错误或未能通过单元测试时,这些信息作为反馈,促使编码代理调整代码,进而生成更优的解决方案。这种方式使得代码在不断迭代中趋于完善,提高了代码的质量和功能。
自我博弈系统则模拟不同观点之间的辩论。在生成论点的过程中,系统内部的不同 “观点” 相互碰撞、交流,通过这种模拟辩论,系统可以从多个角度审视问题,生成更具说服力的论点。这一过程不仅丰富了论点的内容,还提升了其逻辑的严密性和可信度。
YouTube 标题生成器会借助一个与人类偏好相符的评判 LLM 来获取反馈。评判 LLM 会根据一系列因素,如标题的吸引力、相关性以及是否符合用户喜好等,对生成的 YouTube 标题进行评估。基于这些反馈,标题生成器能够不断优化标题,提高视频的点击率和关注度。
Twitter 机器人则依据参与度指标进行优化。它会根据推文的点赞数、评论数、转发数等参与度数据,调整推文的内容和发布策略。如果某条推文的参与度较低,机器人会分析原因,并在后续推文中做出改进,

最低0.47元/天 解锁文章
5041

被折叠的 条评论
为什么被折叠?



