Sphere 项目使用教程
1. 项目目录结构及介绍
Sphere 项目目录结构如下:
Sphere/
├── .github/
│ ├── workflows/
│ │ └── scripts/
├── .gitignore
├── CODE_OF_CONDUCT.md
├── CONTRIBUTING.md
├── LICENSE
├── README.md
├── setup.py
├── sphere_logo.png
└── src/
├── distributed-faiss/
│ └── scripts/
├── kilt/
│ ├──_configs/
│ ├── scripts/
│ └── eval_retrieval.py
└── ...
.github/
:包含 GitHub Actions 工作流和相关脚本。.gitignore
:指定 Git 忽略的文件和目录。CODE_OF_CONDUCT.md
:项目行为准则。CONTRIBUTING.md
:贡献指南,说明如何贡献代码和文档。LICENSE
:项目许可证信息。README.md
:项目说明文件,包含项目介绍、安装和使用指南。setup.py
:Python 包的设置文件,用于安装项目依赖。sphere_logo.png
:项目徽标。src/
:源代码目录,包含项目的主要实现代码和相关模块。
2. 项目的启动文件介绍
项目的启动主要涉及以下几个文件:
setup.py
:用于安装项目依赖的 Python 包。src/distributed-faiss/scripts/server_launcher.py
:用于启动 distributed-faiss 服务的脚本。src/kilt/scripts/execute_retrieval.py
:用于执行检索的脚本。
以启动 distributed-faiss 服务为例,需要在命令行中执行以下命令:
python src/distributed-faiss/scripts/server_launcher.py \
--log-dir logs \
--discovery-config faiss_index/disovery_config.txt \
--num-servers 32 \
--num-servers-per-node 4 \
--timeout-min 4320 \
--save-dir faiss_index/ \
--mem-gb 500 \
--base-port 13034 \
--partition dev
3. 项目的配置文件介绍
项目的配置文件包括:
faiss_index/disovery_config.txt
:distributed-faiss 服务的发现配置文件。configs/dpr_web_sphere.yaml
:DPR 模型的配置文件。configs/bm25_sphere.json
:BM25 稀疏索引的配置文件。
配置文件通常包含服务参数、模型路径、索引路径等信息。以 dpr_web_sphere.yaml
为例,以下是一些关键配置:
n_docs: 100
model_file: checkpoints/dpr_web_biencoder.cp
rpc_retriever_cfg_file: faiss_index/disovery_config.txt
rpc_index_id: dense
这些配置指定了检索时使用的文档数量、模型文件路径、服务配置文件路径和索引ID。修改这些配置可以调整检索行为和性能。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考