Sci-Hub Crawler 使用教程
sci-hub-crawler 项目地址: https://gitcode.com/gh_mirrors/sc/sci-hub-crawler
1. 项目介绍
Sci-Hub Crawler 是一个用于从 Sci-Hub 网站上爬取 PDF 资源的小型开源项目。该项目根据从 Web of Science 获取的 DOI 列表,自动下载对应的 PDF 文件。该项目仅用于学习目的,不应用于商业用途。
2. 项目快速启动
2.1 环境准备
-
安装 Conda:
- 下载并安装 Anaconda。
- 配置镜像源:
conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/ conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/ conda config --add channels http://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/win-64/ conda config --set show_channel_urls yes
-
创建虚拟环境:
conda create -n Py310_Crawler python=3.10 conda activate Py310_Crawler
-
安装依赖项:
conda install requests conda install lxml
2.2 下载项目
git clone https://github.com/InvincibleGuy777/sci-hub-crawler.git
cd sci-hub-crawler
2.3 运行项目
-
准备 DOI 列表:
- 在 Web of Science 中搜索感兴趣的内容,导出为 TXT 文件(记录内容为作者、标题、来源出版物)。
- 将导出的文件命名为
data.txt
,并放在sci_spider.py
同级目录下。
-
运行爬虫:
python sci_spider.py
3. 应用案例和最佳实践
3.1 应用案例
- 学术研究:研究人员可以使用 Sci-Hub Crawler 自动下载大量相关文献,节省手动搜索和下载的时间。
- 数据分析:数据科学家可以使用爬取的文献进行文本挖掘和数据分析,提取有价值的信息。
3.2 最佳实践
- 定期更新代码:Sci-Hub 的网站结构可能会发生变化,定期更新代码以适应这些变化。
- 合理使用资源:避免在短时间内发送大量请求,以免对 Sci-Hub 服务器造成过大压力。
4. 典型生态项目
- Selenium:用于自动化浏览器操作,Sci-Hub Crawler 使用 Selenium 来模拟用户行为,获取 PDF 下载链接。
- Requests:用于发送 HTTP 请求,Sci-Hub Crawler 使用 Requests 库来下载 PDF 文件。
- LXML:用于解析 HTML 和 XML 文档,Sci-Hub Crawler 使用 LXML 来解析 Sci-Hub 页面的 HTML 结构,提取下载链接。
通过以上步骤,您可以快速上手并使用 Sci-Hub Crawler 项目。希望这个教程对您有所帮助!
sci-hub-crawler 项目地址: https://gitcode.com/gh_mirrors/sc/sci-hub-crawler
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考