项目简介
**本期教程以关键词摘要SCI论文为例,稳定自动批量爬取Sci-Hub的论文。**
依赖网站
- Web of Science http://apps.webofknowledge.com
- Sci-Hub https://sci-hub.mksa.top/
环境配置
虚拟环境(对于新生比较复杂,不会你就跳过,问题不大)
Anaconda
PyCharm
pip install requests
pip install beautifulsoup4
pip install html5lib
pip install cssselect
pip install lxml
pip install urllib3
1、关键词导出论文信息
本文采用的是稳定的方法,防止大量爬取受到封禁的危险。采用的是结合Web of Science 导出html格式。
2、依据关键词批量下载SCI论文
代码在这来取
https://github.com/Willde-Peng/sci-spider.git
如果没有用过GitHub,安排了百度云。
链接:https://pan.baidu.com/s/1LqLCQ8NrfKawkH4VmEdfAA
提取码:yzup
总结
- 打开 Web of Science,搜索感兴趣的内容,得到一个搜索结果列表。
- 点击 “导出为其他文件格式” 按钮,记录条数自选,记录内容为作者、标题、来源出版物,文件格式选择HTML,然后点击"导出",记录该 html 文件的绝对路径。
- 运行我提供的代码 SCI-SPIDER.py。准备睡觉等待。
References
[1] https://blog.youkuaiyun.com/weixin_42430021/article/details/110738063
[2] https://blog.youkuaiyun.com/weixin_39836898/article/details/110376034
[3] https://blog.youkuaiyun.com/qq_36618444/article/details/106592171
欢迎读者朋友留言。请批评指正。