OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量608

点赞数 5

CC 4.0 BY-SA版权

文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136327555

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

OpenCodeInterpreter是一个开源代码系统，旨在通过集成生成、执行和迭代优化来提升代码质量。借助CodeFeedback数据集，该系统结合执行和人工反馈实现动态代码细化。在HumanEval和MBPP等基准测试中，OpenCodeInterpreter展现了与GPT-4相媲美的性能，并通过GPT-4的人工反馈进一步提升。该系统缩小了开源模型与专有系统如GPT-4代码解释器之间的差距。

本文是LLM系列文章，针对《OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement》的翻译。

摘要

大型语言模型的引入大大提高了代码生成的速度。然而，开源模型往往缺乏GPT-4代码解释器等高级系统的执行能力和迭代精化。为了解决这一问题，我们引入了OpenCodeInterpreter，这是一个开源代码系统家族，旨在生成、执行和迭代优化代码。在CodeFeedback（一个具有68K多回合交互的数据集）的支持下，OpenCodeInterpreter集成了执行和人工反馈，以实现动态代码细化。我们对OpenCodeInterpreter在HumanEval、MBPP及其EvalPlus增强版等关键基准测试中的全面评估揭示了其卓越的性能。值得注意的是，OpenCodeInterpreter33B在HumanEval和MBPP的平均（及以上版本）上实现了83.2（76.4）的准确度，与GPT-4的84.2（76.2）不相上下，并通过GPT-4合成的人类反馈进一步提高到91.6（84.6）。OpenCodeInterpreter带来了开源代码生成模型和GPT-4代码解释器等专有系统之间的差距。