SWE-bench项目快速入门指南：软件工程基准测试实践-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00827/article/details/148755713

SWE-bench项目快速入门指南：软件工程基准测试实践

SWE-bench SWE-Bench: Can Language Models Resolve Real-world Github Issues? 项目地址: https://gitcode.com/gh_mirrors/sw/SWE-bench

项目概述

SWE-bench是一个专注于软件工程任务的基准测试框架，旨在评估大型语言模型(LLM)在真实软件开发场景中的表现。该项目由普林斯顿大学NLP团队开发，提供了完整的测试环境、数据集和评估工具链，帮助研究人员系统性地测试模型在代码修复、功能实现等软件工程任务上的能力。

环境准备

基础环境要求

在开始使用SWE-bench前，需要确保系统满足以下要求：

Python 3.8或更高版本
Docker引擎（用于创建隔离的测试环境）
Git版本控制系统

安装步骤

获取项目代码：

git clone <项目仓库地址>
cd SWE-bench

安装Python依赖：

pip install -e .

验证Docker安装：

docker --version

确保Docker服务正在运行

数据集使用指南

SWE-bench提供了多个不同特性的数据集变体，适用于不同场景的测试需求：

核心数据集加载

from datasets import load_dataset

# 完整测试集
swebench = load_dataset('princeton-nlp/SWE-bench', split='test')

# 轻量版数据集（适合快速验证）
swebench_lite = load_dataset('princeton-nlp/SWE-bench_Lite', split='test')

# 已验证数据集（经过人工验证的样本）
swebench_verified = load_dataset('princeton-nlp/SWE-bench_Verified', split='test')

# 多模态开发集/测试集
swebench_multimodal_dev = load_dataset('princeton-nlp/SWE-bench_Multimodal', split='dev')
swebench_multimodal_test = load_dataset('princeton-nlp/SWE-bench_Multimodal', split='test')

# 多语言数据集
swebench_multilingual = load_dataset('princeton-nlp/SWE-bench_Multilingual', split='test')

基础评估流程

标准评估命令

执行基础评估需要指定数据集和预测结果路径：

python -m swebench.harness.run_evaluation \
    --dataset_name princeton-nlp/SWE-bench_Lite \
    --num_workers 4 \
    --predictions_path <预测结果路径>

验证评估环境

为确保评估环境配置正确，可以使用"gold"标准补丁进行验证测试：

python -m swebench.harness.run_evaluation \
    --max_workers 1 \
    --instance_ids sympy__sympy-20590 \
    --predictions_path gold \
    --run_id validate-gold

专用模型使用

SWE-bench提供了专为软件工程任务优化的模型，如SWE-Llama系列：

python -m swebench.inference.run_llama \
    --model_name_or_path princeton-nlp/SWE-Llama-13b \
    --dataset_name princeton-nlp/SWE-bench_Lite \
    --max_instances 10 \
    --output_dir <输出目录路径>

Docker环境深度使用

SWE-bench利用Docker为每个测试实例创建隔离环境，确保评估的一致性和可重复性。

构建特定实例的Docker镜像

from swebench.harness.docker_build import build_instance_image

instance_id = "httpie-cli/httpie#1088"
image_tag = build_instance_image(instance_id)

在容器中执行命令

from swebench.harness.docker_utils import exec_run_with_timeout

result = exec_run_with_timeout(
    container_name=f"container_{instance_id}",
    image_tag=image_tag,
    cmd="cd /workspace && pytest",
    timeout=300  # 5分钟超时
)