科研神器-SCI论文批量爬取

最新推荐文章于 2024-05-09 16:53:01 发布

Will沐风

最新推荐文章于 2024-05-09 16:53:01 发布

阅读量4.3k

点赞数 12

分类专栏：科研神器文章标签： github

本文链接：https://blog.youkuaiyun.com/willpeng0258/article/details/117558737

版权

科研神器专栏收录该内容

1 篇文章

订阅专栏

我是目录

项目简介
- - 依赖网站
  - 环境配置
1、关键词导出论文信息
2、依据关键词批量下载SCI论文
总结
References

项目简介

    **本期教程以关键词摘要SCI论文为例，稳定自动批量爬取Sci-Hub的论文。**

依赖网站

Web of Science http://apps.webofknowledge.com
Sci-Hub https://sci-hub.mksa.top/

环境配置

虚拟环境（对于新生比较复杂，不会你就跳过，问题不大）

Anaconda 
PyCharm

pip install requests
pip install beautifulsoup4
pip install html5lib
pip install cssselect
pip install lxml
pip install urllib3

1、关键词导出论文信息

本文采用的是稳定的方法，防止大量爬取受到封禁的危险。采用的是结合Web of Science 导出html格式。
在这里插入图片描述

2、依据关键词批量下载SCI论文

代码在这来取
https://github.com/Willde-Peng/sci-spider.git
如果没有用过GitHub,安排了百度云。
链接：https://pan.baidu.com/s/1LqLCQ8NrfKawkH4VmEdfAA
提取码：yzup

在这里插入图片描述

总结

打开 Web of Science，搜索感兴趣的内容，得到一个搜索结果列表。
点击 “导出为其他文件格式” 按钮，记录条数自选，记录内容为作者、标题、来源出版物，文件格式选择HTML，然后点击"导出"，记录该 html 文件的绝对路径。
运行我提供的代码 SCI-SPIDER.py。准备睡觉等待。

References

[1] https://blog.youkuaiyun.com/weixin_42430021/article/details/110738063
[2] https://blog.youkuaiyun.com/weixin_39836898/article/details/110376034
[3] https://blog.youkuaiyun.com/qq_36618444/article/details/106592171

欢迎读者朋友留言。请批评指正。