LLM论文笔记 2: What Makes Large Language Models Reason in (Multi-Turn) Code Generation?

  • Arxiv日期:2024.10.12
  • 机构:Meta AI (FAIR)

关键词

  • 竞赛级代码生成

  • 多轮 + CoT

  • 执行反馈

  • prompts 搜索

核心结论

  • 将计算成本考虑在内,对于代码生成任务,pass n@k 是比 pass@k 更公平的评价指标(k 次采样 n 次提交)

    • 对于单轮query,Reasoning prompt + Instruction prompt 结合性能最佳
    • 多轮生成本身收益不大,但是结合 CoT 后性能提升显著
    • LLM 可以通过对多轮 CoT 数据 RFT 内化推理行为
    • CoT 对更大的模型更有效
    • 正确设计的 CoT 对更难的代码问题性能提升更显著
    • 多轮生成中执行反馈粒度影响探索 / 利用平衡(简单反馈适合引导探索、复杂反馈依赖原有样本减小多样性)
    • CoT-retry 提升多轮性能

    主要方法

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    Zhouqi_Hua

    你的鼓励将是我创作的最大动力

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值