CrawlGPT 使用与配置指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00509/article/details/147406509

CrawlGPT 使用与配置指南

CrawlGPT 项目地址: https://gitcode.com/gh_mirrors/cr/CrawlGPT

1. 项目目录结构及介绍

CrawlGPT 是一个基于 GPT-3.5 的全自动网络爬虫项目。项目目录结构如下：

CrawlGPT/
├── bin/                # 存储可执行脚本
├── docs/               # 存储项目文档
├── image/              # 存储项目相关图像文件
├── include/            # 包含项目所需的资源和文件
├── langchain/          # LangChain 相关代码和资源
├── tests/              # 存储项目测试代码
├── .dockerignore       # 定义 Docker 忽略的文件和目录
├── .flake8             # 定义 flake8 的配置
├── .gitignore          # 定义 Git 忽略的文件和目录
├── CITATION.cff        # 项目引用文件
├── LICENSE             # 项目许可证文件
├── README.md           # 项目说明文件
├── final_dict.json     # 存储爬取结果的数据文件
├── pipeline.py         # 项目的主要执行脚本
├── pyvenv.cfg          # Python 虚拟环境配置文件
├── requirements.txt    # 项目所需的依赖列表