CrawlGPT 使用与配置指南
CrawlGPT 项目地址: https://gitcode.com/gh_mirrors/cr/CrawlGPT
1. 项目目录结构及介绍
CrawlGPT 是一个基于 GPT-3.5 的全自动网络爬虫项目。项目目录结构如下:
CrawlGPT/
├── bin/ # 存储可执行脚本
├── docs/ # 存储项目文档
├── image/ # 存储项目相关图像文件
├── include/ # 包含项目所需的资源和文件
├── langchain/ # LangChain 相关代码和资源
├── tests/ # 存储项目测试代码
├── .dockerignore # 定义 Docker 忽略的文件和目录
├── .flake8 # 定义 flake8 的配置
├── .gitignore # 定义 Git 忽略的文件和目录
├── CITATION.cff # 项目引用文件
├── LICENSE # 项目许可证文件
├── README.md # 项目说明文件
├── final_dict.json # 存储爬取结果的数据文件
├── pipeline.py # 项目的主要执行脚本
├── pyvenv.cfg # Python 虚拟环境配置文件
├── requirements.txt # 项目所需的依赖列表
2. 项目的启动文件介绍
项目的启动文件是 pipeline.py
。该文件负责初始化爬虫流程,执行爬虫任务,并将结果保存到 final_dict.json
文件中。以下是 pipeline.py
的主要功能:
- 载入配置文件和依赖项。
- 定义爬虫的主题和需要获取的详细信息。
- 执行爬虫任务,包括生成查询,搜索结果,提取信息等。
- 将爬取到的结果保存到 JSON 文件中。
3. 项目的配置文件介绍
项目的配置主要通过环境变量和几个关键的 Python 文件进行:
os.environ["OPENAI_API_KEY"]
:OpenAI API 的密钥,用于访问 GPT-3.5 服务。os.environ["SERPER_API_KEY"]
:Google Serper API 的密钥,用于执行 Google 搜索。QUERY_NUM
:定义每次搜索使用的查询数量。QUERY_RESULTS_NUM
:定义每次搜索返回的结果数量。
在 pipeline.py
文件中,可以设置这些环境变量和参数,以便正确配置和运行项目。
请确保在运行项目之前,已经正确安装了所需的依赖项,并配置了相应的 API 密钥。使用以下命令安装依赖项:
pip install -r requirements.txt
然后,运行以下命令启动爬虫:
python pipeline.py > output.txt
爬取结果将会保存在 final_dict.json
文件中。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考