论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation
论文链接:https://arxiv.org/abs/2503.22688
机构:北航 + 华为云
Github代码链接:https://github.com/zhu-zhu-ding/CodeIF-Bench
简介
现有代码生成的基准多关注单轮交互的功能正确性,缺乏对多轮交互中指令遵循能力的评估,尤其在复杂上下文和多轮对话场景下。所以本文提出了一个CodeIF-Bench,来对多轮代码生成任务中LLM的指令遵循能力进行自动化评估,而且任务覆盖不同难度等级,最高可达仓库级任务。
构造方法
框架概述

图2展示了CodeIF-Bench基准构建中可验证指令策略提取和数据收集的流程,具体如下:
- Step-1:VI Strategy Extraction(可验证指令策略提取 )
① Code Review Comment(代码评审评论 ):从实际的代码评审评论入手,这是整个流程的起始点。
② Clustering(聚类 ):对收集到的代码评审评论样本进行聚类,把相似的评论归在一起。比如“什么是polygamma的输出类型?”“allocation(888, 887)会发生什么?”等评论就是样本。<

最低0.47元/天 解锁文章
706

被折叠的 条评论
为什么被折叠?



