本文是LLM系列文章,针对《ProgCo: Program Helps Self-Correction of Large Language Models》的翻译。
摘要
自我纠正旨在使大型语言模型(LLM)能够在没有外部反馈的情况下自我验证和自我完善其初始反应。然而,LLM往往无法有效地进行自我验证并生成正确的反馈,从而进一步误导改进,导致自我纠正失败,尤其是在复杂的推理任务中。本文提出了程序驱动自校正(ProgCo)。首先,程序驱动验证(ProgVe)通过自生成、自执行的验证伪程序实现了复杂的验证逻辑和广泛的验证。然后,程序驱动的精化(ProgRe)从ProgVe接收反馈,对响应和验证程序进行双重反思和精化,以减少复杂推理任务中错误反馈的误导。在三个指令跟踪和数学基准上的实验表明,ProgCo实现了有效的自校正,与实际程序工具结合可以进一步提高性能。
订阅专栏 解锁全文
553

被折叠的 条评论
为什么被折叠?



