
python爬虫
文章平均质量分 52
叨陪鲤
哈
展开
-
美女博士天天让我帮她下载SCI文献,今天终于给她发过去了
1. 需求美女听过我曾经帮另一个美女下载过很多文献,然后非要我帮她爬取一部分SCI文献。哎,对美女毫无抵抗力,我最后同意了。目的比较简单:避免手动去下载文献,因为比较多,操作也比较繁琐,因此用爬虫还是很方便的。上次爬取时,只是将文章信息,如标题、作者、摘要、发表时间、引用信息、DOI索引等,这次有一点点变化,就是需要将文章下载下来,因此有了这篇文章。2. 网站信息3. 下载方法需要说明的是:此网站没有直接下载文章按钮,在找到文章后,使用文章题目(或者是DOI索引, 下载SCI文章使用DOI更原创 2021-08-14 19:24:05 · 763 阅读 · 0 评论 -
亲测有效,彻底解决:fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached
哎,爬个虫吧,useragent隔一段时间就会报这个错误,这个时间可能会很久,但是出现了好几次。这次记录下来吧:User-Agent用法上是参考网上的资料,原本没有什么问题:from fake_useragent import UserAgentfrom bs4 import BeautifulSoupfrom urllib import requestfrom urllib import errorimport reimport timedef html_request(.原创 2021-07-17 08:31:52 · 9862 阅读 · 7 评论 -
连夜帮美女小姐姐爬取文献,第二天早晨给她一个Excel文件
最后爬取的结果如下:某天中午收到漂亮小姐姐微信,是这样的:然后晚上10点下班回家开始了连夜写爬虫脚本,终于在2点的时候基本可以用了:然后早上醒来直接将爬下来的文章发了过去O(∩_∩)O哈哈~。代码实现如下:# Author : 叨陪鲤# Date : 2021/4/10# Position : Beijingfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoupfrom url原创 2021-04-10 09:51:20 · 4115 阅读 · 8 评论 -
Python入门学习之:10分钟1500访问量
看效果:不扯没用的,直接上代码:# author : sunzd# date : 2019/9/01# position : beijingfrom fake_useragent import UserAgentfrom bs4 import BeautifulSoupfrom urllib import requestfrom urllib import errorimport reimport timedef html_request(url): if原创 2021-03-10 21:36:10 · 4459 阅读 · 3 评论 -
python爬区csdn文章信息(原始稿)
使用python对csdn的博主文章进行爬取,期间又遇到了新的问题和旧的已经遇到过的问题。首先做一个笔记,免得以后遇到同样的问题时还得浪费时间和经历。刚开始目的没那么明确,主要在于熟悉相关的规则及流程。采用的方式时正则表达式 + BeautifulSoup, 个人感觉正则表达时的好处时方便对数据进行过滤和筛选;BeautifulSoup则时专门用来处理xml文件的,它可以很方便的提取xml文...原创 2019-09-01 23:28:05 · 4467 阅读 · 0 评论 -
Python中正则表达式简介
目录一、什么是正则表达式二、正则表达式的基础知识1. 原子 1)普通字符作为原子 2)非打印字符作为原子 3) 通用字符作为原子 4) 原子表2. 元字符 1)任意匹配元字符 2)边界限制元字符 3)限定符 4)模式选择符 5)模式单元符3. 模式修正4. 懒惰模式和贪婪模式三、正...原创 2019-08-25 21:48:03 · 4955 阅读 · 0 评论 -
python3 爬虫五大模块之五:信息采集器
Python的爬虫框架主要可以分为以下五个部分:爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页网页解析器:负责网页信息的解...原创 2019-03-23 14:34:48 · 5217 阅读 · 0 评论 -
python3 爬虫五大模块之四:网页解析器
Python的爬虫框架主要可以分为以下五个部分:爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页网页解析器:负责网页信息的解...原创 2019-03-23 14:00:55 · 6261 阅读 · 0 评论 -
python3 爬虫五大模块之三:网页下载器
Python的爬虫框架主要可以分为以下五个部分:爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页网页解析器:负责网页信息的解...原创 2019-03-23 12:17:19 · 5842 阅读 · 0 评论 -
python3 爬虫五大模块之二:URL管理器
Python的爬虫框架主要可以分为以下五个部分:爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页网页解析器:负责网页信息的解...原创 2019-03-23 11:59:04 · 6271 阅读 · 0 评论 -
python3 爬虫五大模块之一:爬虫调度器
Python的爬虫框架主要可以分为以下五个部分:爬虫调度器:用于各个模块之间的通信,可以理解为爬虫的入口与核心(main函数),爬虫的执行策略在此模块进行定义;URL管理器:负责URL的管理,包括带爬取和已爬取的URL、已经提供相应的接口函数(类似增删改查的函数)网页下载器:负责通过URL将网页进行下载,主要是进行相应的伪装处理模拟浏览器访问、下载网页网页解析器:负责网页信息的解...原创 2019-03-23 11:36:28 · 9121 阅读 · 0 评论