SWE-bench项目详解：面向大语言模型的软件工程评测基准-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00389/article/details/148755719

SWE-bench项目详解：面向大语言模型的软件工程评测基准

SWE-bench SWE-Bench: Can Language Models Resolve Real-world Github Issues? 项目地址: https://gitcode.com/gh_mirrors/sw/SWE-bench

项目概述

什么是SWE-bench？

SWE-bench是一个专门设计用于评估大型语言模型(LLM)在真实软件工程任务上表现的基准测试平台。该平台通过收集实际开发中的GitHub问题及其对应的修复方案，构建了一个全面的评估体系，用于测试LLM生成补丁解决实际问题的能力。

作为当前最全面的软件工程评估基准之一，SWE-bench填补了传统代码生成评估与真实开发场景之间的鸿沟，为研究者和开发者提供了一个可靠的评估工具。

核心数据集介绍

SWE-bench提供了多个精心设计的数据集，满足不同评估需求：

完整基准集(SWE-bench)
包含2,294个评估实例，覆盖广泛的软件工程问题场景
精简版(SWE-bench Lite)
300个精选实例，适合快速评估和原型开发
已验证集(SWE-bench Verified)
500个经过工程师验证可解决的问题实例，确保评估有效性
多模态集(SWE-bench Multimodal)
100个开发实例，包含截图和UI元素等多媒体信息
多语言集(SWE-bench Multimodal)
300个实例，覆盖9种编程语言和42个代码仓库

评估机制详解

评估流程

SWE-bench采用严格的四步评估流程：

环境准备
为每个代码仓库创建独立的Docker环境，确保评估一致性
补丁应用
自动应用模型生成的代码补丁
测试执行
运行仓库原有的测试套件验证补丁效果
结果判定
根据测试结果判断问题是否被成功解决

关键评估指标

评估报告包含以下核心指标：

总实例数：数据集中包含的问题总数
提交实例数：模型尝试解决的问题数量
完成实例数：成功完成评估流程的问题数量
解决实例数：模型成功修复的问题数量
未解决实例数：评估完成但问题未修复的情况
空补丁实例：模型返回空补丁的情况
错误实例数：评估过程中出现错误的实例
解决率：成功解决问题的百分比

安装与配置指南

磁盘空间优化

使用Docker进行评估时，可采用以下方法节省磁盘空间：

# 清理未使用的容器
docker container prune

# 清理未使用的镜像
docker image prune

# 全面清理Docker系统
docker system prune

在运行评估时，可设置--cache_level=env和--clean=True参数，使系统在使用后自动清理实例镜像，虽然会增加运行时间，但能显著减少磁盘占用。

评估实践指南

自定义模型评估

要评估自定义模型，需按指定格式生成预测结果，并使用评估工具链：

from swebench.harness.run_evaluation import run_evaluation

predictions = [
    {
        "instance_id": "仓库拥有者_仓库名-问题编号",
        "model": "模型名称",
        "prediction": "生成的代码补丁"
    }
]

results = run_evaluation(
    predictions=predictions,
    dataset_name="SWE-bench_Lite",
)

更高效的方式是将预测结果保存为文件后批量评估：

python -m swebench.harness.run_evaluation --predictions_path 预测文件.jsonl

评估加速技巧

使用精简版数据集进行初步评估
增加num_workers参数提高并行度
利用云服务进行分布式评估

补丁格式要求

模型输出应为标准的diff或patch格式，推荐使用git diff生成的差异格式，确保能够正确应用到原始代码上。

常见问题排查

评估过程卡顿或超时

解决方案：

减少并行工作线程数
检查Docker资源限制配置
确保有足够的磁盘空间

Docker构建网络错误

检查网络配置并确保网络连通性：

docker network ls
docker network inspect bridge

高级应用场景

云评估方案

使用云服务进行大规模评估：

from swebench.harness.modal_eval.run_modal import run_modal_evaluation

results = run_modal_evaluation(
    predictions=predictions,
    dataset_name="SWE-bench_Lite",
    parallelism=10
)