【复杂指令遵循 Benchmark】论文分享:CodeIF-Bench

论文名称:CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation

论文链接:https://arxiv.org/abs/2503.22688

机构:北航 + 华为云

Github代码链接:https://github.com/zhu-zhu-ding/CodeIF-Bench

简介

现有代码生成的基准多关注单轮交互的功能正确性,缺乏对多轮交互中指令遵循能力的评估,尤其在复杂上下文和多轮对话场景下。所以本文提出了一个CodeIF-Bench,来对多轮代码生成任务中LLM的指令遵循能力进行自动化评估,而且任务覆盖不同难度等级,最高可达仓库级任务。

构造方法

框架概述

在这里插入图片描述

图2展示了CodeIF-Bench基准构建中可验证指令策略提取和数据收集的流程,具体如下:

  • Step-1:VI Strategy Extraction(可验证指令策略提取 )

① Code Review Comment(代码评审评论 ):从实际的代码评审评论入手,这是整个流程的起始点。

② Clustering(聚类 ):对收集到的代码评审评论样本进行聚类,把相似的评论归在一起。比如“什么是polygamma的输出类型?”“allocation(888, 887)会发生什么?”等评论就是样本。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

依然易冷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值