科研神器-SCI论文批量爬取

项目简介

    **本期教程以关键词摘要SCI论文为例,稳定自动批量爬取Sci-Hub的论文。**

依赖网站

  1. Web of Science http://apps.webofknowledge.com
  2. Sci-Hub https://sci-hub.mksa.top/

环境配置

虚拟环境(对于新生比较复杂,不会你就跳过,问题不大)

Anaconda 
PyCharm
pip install requests
pip install beautifulsoup4
pip install html5lib
pip install cssselect
pip install lxml
pip install urllib3

1、关键词导出论文信息

本文采用的是稳定的方法,防止大量爬取受到封禁的危险。采用的是结合Web of Science 导出html格式。
在这里插入图片描述
在这里插入图片描述

2、依据关键词批量下载SCI论文

代码在这来取
https://github.com/Willde-Peng/sci-spider.git
如果没有用过GitHub,安排了百度云。
链接:https://pan.baidu.com/s/1LqLCQ8NrfKawkH4VmEdfAA
提取码:yzup

在这里插入图片描述

总结

  1. 打开 Web of Science,搜索感兴趣的内容,得到一个搜索结果列表。
  2. 点击 “导出为其他文件格式” 按钮,记录条数自选,记录内容为作者、标题、来源出版物,文件格式选择HTML,然后点击"导出",记录该 html 文件的绝对路径。
  3. 运行我提供的代码 SCI-SPIDER.py。准备睡觉等待。

References

[1] https://blog.youkuaiyun.com/weixin_42430021/article/details/110738063
[2] https://blog.youkuaiyun.com/weixin_39836898/article/details/110376034
[3] https://blog.youkuaiyun.com/qq_36618444/article/details/106592171

欢迎读者朋友留言。请批评指正。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Will沐风

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值