SWE-bench项目：构建RAG数据集的完整指南-优快云博客

SWE-bench项目：构建RAG数据集的完整指南

SWE-bench SWE-Bench: Can Language Models Resolve Real-world Github Issues? 项目地址: https://gitcode.com/gh_mirrors/sw/SWE-bench

前言

在软件工程领域，如何有效评估和提升AI模型的代码修复能力一直是个重要课题。SWE-bench作为一个专注于评估AI模型解决真实世界软件工程问题的基准测试平台，提供了强大的工具集来构建和评估检索增强生成(RAG)模型所需的数据集。本文将详细介绍如何使用SWE-bench工具创建高质量的RAG数据集。

RAG数据集构建概述

RAG(检索增强生成)是一种结合信息检索与文本生成的技术，在代码修复任务中尤其有效。SWE-bench提供了完整的工具链来构建这类数据集，主要包括四个核心组件：

文本数据集创建工具
数据集分词工具
BM25检索工具
检索结果评估工具

文本数据集创建详解

核心功能

create_text_dataset脚本是构建RAG数据集的第一步，它能够根据不同的提示风格和上下文来源生成定制化的文本数据集。

提示风格选择

SWE-bench提供了多种预定义的提示风格，适用于不同场景：

API模型风格：style-2和style-3，其中style-2兼容SWE-Llama模型
全文件生成风格：full_file_gen，用于完整文件生成的消融研究
仅编辑风格：style-2-edits-only，用于oracle-collapsed消融实验

上下文来源选项

数据集构建时可以选择不同的上下文来源：

oracle：使用真实解决方案中的上下文
bm25：基于BM25检索算法获取的上下文
其他自定义来源

典型配置示例

python -m swebench.inference.make_datasets.create_text_dataset \
    --dataset_name_or_path ./swe_bench_data \
    --output_dir ./custom_datasets \
    --prompt_style style-3 \
    --file_source oracle \
    --max_context_len 2048 \
    --tokenizer_name gpt2

高级选项说明

数据集分割：可指定处理特定数据分割(train/test/validation)
验证集创建：通过--validation_ratio从训练集划分验证集
上下文长度控制：使用--max_context_len限制上下文token数量
数据集发布：支持将构建好的数据集推送到模型中心

数据集分词处理

构建好的文本数据集需要经过分词处理才能用于模型训练和评估。

分词器选择

SWE-bench支持多种流行的分词器：

llama：适用于Llama系列模型
gpt2：适用于GPT系列模型
cl100k：适用于部分最新模型

分词处理示例

python -m swebench.inference.make_datasets.tokenize_dataset \
    --dataset_name_or_path ./custom_datasets/style3_oracle \
    --output_dir ./tokenized_datasets \
    --tokenizer_name llama \
    --num_proc 8

性能提示：对于大型数据集，适当增加--num_proc参数可以显著提升处理速度，但注意cl100k分词器不支持多进程。

BM25检索技术实现

BM25是一种经典的基于统计的信息检索算法，在代码检索任务中表现优异。

检索流程

构建代码文档索引
对每个问题生成查询
执行检索并保存结果

典型检索命令

python -m swebench.inference.make_datasets.bm25_retrieval \
    --dataset_name_or_path ./swe_bench_data \
    --output_dir ./retrieval_results \
    --splits test \
    --k 10

参数说明：--k参数控制返回的检索结果数量，可根据需求调整。

检索结果评估方法

评估检索质量是优化RAG系统的重要环节。

评估指标

SWE-bench的评估脚本会计算以下关键指标：

召回率(Recall)
准确率(Precision)
平均排名(Mean Rank)

评估示例

python -m swebench.inference.make_datasets.eval_retrieval \
    --dataset_name_or_path ./retrieval_results/bm25_test \
    --split test \
    --detailed

评估细节：添加--detailed参数可获取更详细的评估报告，包括每个查询的具体表现。