
爬虫
wwxxee
become better
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫框架Scrapy使用详细介绍--简单入门
爬虫框架Scrapy使用详细介绍--简单入门 爬虫框架Scrapy使用详细介绍--简单入门 Scrapy 框架(本文仅用作个人记录)- Scrapy框架是用纯python实现一个为了爬去网站数据,提取结构性数据而编写的应用框架,用途非常广泛。-&nbs...原创 2019-12-30 18:32:29 · 755 阅读 · 1 评论 -
死亡公司公墓
本次爬取的是新经济死亡公司数据库,从死亡原因,获投状态,存活天数等多个指标呈现死亡公司全貌。使用Scrapy爬虫框架抓取数据。##抓取###1.分析请求url = “https://www.itjuzi.com/deathCompany”通过刷新页面可以在网络请求里发现Ajax请求,返回数据格式为Json。向该响应的Request URL发送请求即可。###2.明确抓取字段抓取字段...原创 2019-12-30 18:28:05 · 1398 阅读 · 0 评论 -
Selenium爬取淘宝数据
使用Selenium抓取淘宝数据淘宝的反扒措施太严格了。搞了半天没破解,最后使用使用所见即可爬的Selenium。在正常浏览器打开淘宝在console面板输入window.navigator.webdriver,返回的时undefined,使用selenium驱动的浏览器同样的操作,返回的是True。可能是淘宝的反扒措施之一。尝试了淘宝的登录页面,但是没有获取到“密码登录”的接口。所以直...原创 2019-12-30 17:53:22 · 865 阅读 · 1 评论 -
爬虫框架Scrapy中DownloaderMiddleware的用法
DownloaderMiddleware:下载中间件。它是处于scrapy的Request和Response之间的处理模块。流程:Scheduler 从队列中拿出一个Request发送给Downloader执行下载,这个过程会经过DownloaderMiddleware的处理,另外,当Downloader将Response返回给Spider时会再次经过DownloadederMiddlewa...原创 2019-12-30 17:49:13 · 486 阅读 · 0 评论 -
模拟登录Github
1. 检查请求首先来到Github的登录页面,如下所示。然后打开开发者模式,切换到Netword选项卡下,然后在浏览器输入用户名和密码,不要着急点击登录,先清除Network下的所有请求。然后点击登录,会看到有很多的请求被发送出去。接着找到第一个session请求,查看该post请求的form data,如下图所示。其中的login 和 password就是我们所输入的账号名与密码。...原创 2019-12-30 17:48:36 · 546 阅读 · 0 评论 -
Scrapy-通用爬虫
#1.CrawlSpiderCrawlSpider是Scrapy提供的一个通用Spider。在Spider里,我们可以指定一些爬取规则来实现页面的提取,这些爬取规则有一个专门的数据结构Rule表示。Rule里面包含提取和跟进页面的配置,Spider会根据Rule来确定当前页面中的哪些链接需要继续爬取,哪些页面的爬取规则结果用哪个方法解析。CrawlSpider继承自Spider类。它有一个非...原创 2019-12-30 17:47:24 · 340 阅读 · 0 评论 -
Scrapy爬取新浪微博用户粉丝数据
一般来说pc端的信息是最为全面的,但是防范措施也是最严格的。所以不能走weibo.com这个域名下进行爬取,新浪微博在pc端的反扒措施较为全面。而手机端的数据则相对好爬取,而且数据都是Json格式,解析起来十分方便。新浪微博的m端域名为m.weibo.cn。虽然是手机端,但是我们依然可以在电脑浏览器打开该网站,不需要连接手机设置手机网络代理什么的。##1. 确认爬取目标本次爬取的目标用户为微博...原创 2019-12-30 17:45:58 · 4457 阅读 · 5 评论 -
Scrapy-redis分布式爬虫详解
1. 分布式爬虫原理Scrapy单机爬虫有一个本地爬取队列Queue,如果新的Request生成就会放到队列里面,随后Request被Scheduler调度,之后Request交给Downloader执行。分布式爬虫有多个Scheduler和多个Downloader,而爬取队列始终为一个,也就是共享爬取队列,这样才能保证Scheduler从队列里调度某个Request之后,其他的Schedule...原创 2019-12-30 17:45:09 · 538 阅读 · 0 评论