FollowBench基准测试结果计算方法解析

方楚忱Selena

于 2025-06-02 09:14:17 发布

阅读量353

点赞数 3

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gitblog_07877/article/details/148377003

FollowBench基准测试结果计算方法解析

FollowBench [ACL 2024] FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 项目地址: https://gitcode.com/gh_mirrors/fo/FollowBench

关于FollowBench项目

FollowBench是一个用于评估大型语言模型遵循复杂指令能力的基准测试套件。该测试包含多个约束领域，通过系统化的评估方法来衡量模型在不同约束条件下的表现。

测试结果文件格式

在FollowBench测试中，每个约束领域会生成一个CSV格式的结果文件，文件内容包含以下列：

model_name：测试的模型名称
level 1到level 5：五个难度级别的得分（百分比形式）

典型的结果文件格式如下：

model_name,level 1,level 2,level 3,level 4,level 5
xxxxx,48.00%,36.00%,28.00%,28.00%,16.00%

最终得分计算方法

FollowBench测试包含六个约束领域的结果，最终得分需要对这些领域的结果进行平均计算：

HSR（Hierarchical Success Rate）：层级成功率
SSR（Strict Success Rate）：严格成功率
CSL（Constraint Satisfaction Level）：约束满足水平

这三个核心指标都需要通过对六个约束领域的结果取平均值来获得最终得分。

关于示例约束的特殊处理

在六个约束领域中，示例约束（example constraint）的评估方法与其他领域有所不同：

示例约束的评估完全基于正则表达式规则，不依赖大型语言模型
因此，在主要评估脚本中不包含示例约束的参数设置
示例约束的评估代码位于专门的规则基础评估模块中
最终计算时仍需包含示例约束的结果文件（example_rule_based.csv）

实践建议

对于希望使用FollowBench进行评估的研究人员，建议：

确保收集所有六个约束领域的结果文件
对示例约束使用规则基础评估方法生成的结果
对所有领域的结果进行平均计算，得到最终指标
注意不同约束领域可能采用不同的评估方法学

通过这种系统化的评估方法，FollowBench能够全面反映大型语言模型在遵循复杂指令方面的能力表现。

FollowBench [ACL 2024] FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models 项目地址: https://gitcode.com/gh_mirrors/fo/FollowBench

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

方楚忱Selena 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。