PaSa项目使用说明
1. 项目目录结构及介绍
PaSa项目的目录结构如下所示:
pasa/
├── data/
│ ├── AutoScholarQuery/
│ │ ├── dev.jsonl
│ │ ├── test.jsonl
│ │ └── train.jsonl
│ ├── paper_database/
│ │ ├── cs_paper_2nd.zip
│ │ └── id2paper.json
│ ├── RealScholarQuery/
│ │ └── test.jsonl
│ ├── sft_crawler/
│ │ └── train.jsonl
│ └── sft_selector/
│ ├── test.jsonl
│ └── train.jsonl
├── checkpoints/
│ ├── pasa-7b-crawler
│ └── pasa-7b-selector
├── utils.py
├── metrics.py
├── models.py
├── paper_agent.py
├── paper_node.py
├── run_paper_agent.py
└── README.md
data/
存放项目所需的数据集,包括自动生成的学术查询和相关的论文数据(AutoScholarQuery),真实的学术查询数据(RealScholarQuery),以及用于训练的爬虫和选择器数据(sft_crawler 和 sft_selector)。
checkpoints/
保存训练好的模型权重文件,包括爬虫(pasa-7b-crawler)和选择器(pasa-7b-selector)的模型。
utils.py
包含一些工具函数,如Google搜索API的调用等。
metrics.py
定义了评估模型性能所需的指标计算方法。
models.py
定义了项目中使用的模型类。
paper_agent.py
实现了论文搜索代理的核心逻辑。
paper_node.py
定义了论文节点的相关操作。
run_paper_agent.py
项目的主启动文件,用于运行论文搜索代理。
README.md
项目的说明文件,包含项目介绍、使用说明和许可证信息。
2. 项目的启动文件介绍
项目的启动文件是run_paper_agent.py
。该文件负责初始化和运行整个论文搜索代理系统。以下是启动文件的主要步骤:
- 加载模型权重
- 设置必要的配置参数
- 初始化爬虫和选择器
- 运行搜索代理
要启动项目,你需要在命令行中执行以下命令:
python run_paper_agent.py
3. 项目的配置文件介绍
项目的配置文件没有在目录结构中明确指出,但是从代码中可以看出,配置主要通过代码中的参数设置来实现。例如,utils.py
中可能会包含Google搜索API的密钥配置,run_paper_agent.py
中可能会包含模型加载路径、数据集路径等配置信息。
这些配置通常是在代码中以硬编码的方式设置,或者通过环境变量、命令行参数等方式传递给程序。如果需要修改配置,你需要在相应的代码文件中找到相关的变量并进行修改。
请注意,为了运行项目,你可能需要申请Google Search API密钥,并将其替换到utils.py
中的占位符位置。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考