- Arxiv日期:2024.10.12
- 机构:Meta AI (FAIR)
关键词
-
竞赛级代码生成
-
多轮 + CoT
-
执行反馈
-
prompts 搜索
核心结论
- 将计算成本考虑在内,对于代码生成任务,pass n@k 是比 pass@k 更公平的评价指标(k 次采样 n 次提交)
- 对于单轮query,Reasoning prompt + Instruction prompt 结合性能最佳
- 多轮生成本身收益不大,但是结合 CoT 后性能提升显著
- LLM 可以通过对多轮 CoT 数据 RFT 内化推理行为
- CoT 对更大的模型更有效
- 正确设计的 CoT 对更难的代码问题性能提升更显著
- 多轮生成中执行反馈粒度影响探索 / 利用平衡(简单反馈适合引导探索、复杂反馈依赖原有样本减小多样性)
- CoT-retry 提升多轮性能