
Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
赈川
Android Framework工程师
展开
-
Python爬虫学习记录——20.京东商品数据抓取
文章目录CrawlSprider类链接提取器(Link Extractors)实战CrawlSprider类什么是CrawlSpiderCrawlSpider 是爬取那些具有一定规则网站的常用的爬虫,因其定义了一些规则(rule),提供更加方便的跟进link的机制。它可能并不总是适用于某个特定网站或者项目,但是你可以从CrawlSpider出发,重写一些方法使得CrawlSpider更加适用...原创 2019-10-29 15:27:41 · 2054 阅读 · 0 评论 -
Python爬虫学习记录——19.去哪儿网模拟登陆
文章目录模拟登陆Cookie实战补充:豆瓣登陆模拟登陆本篇博客主要是讲解如何模拟登陆去哪儿网,使用的工具是Chrome的开发者工具和requests库。两者都是之前学过的知识,这次我们把它们放在一起应用什么是模拟登陆有些网站需要用户登录后才会有权限回去到所需要的信息,此时可以设计爬虫进行模拟登录怎么做到模拟登陆把这句话补全就是: 怎么(让机器)模拟(人在浏览器上的行为)登录(指定的网站...原创 2019-10-29 15:09:13 · 1014 阅读 · 0 评论 -
Python爬虫学习记录——18.58同城出租信息抓取
文章目录爬虫整体流程实战爬虫整体流程实战58同城抓取流程进入成都小区页面(https://cd.58.com/xiaoqu/),确定抓取目标观察页面,获取各行政区的链接分行政区抓取各小区的URL进入各小区详情页面,抓取名字、价格、地址、年份等信息抓取小区二手房页面第一页的价格,在管道中求该小区房价的平均价格抓取小区出租房页面第一页的URL,进入详情页...原创 2019-10-29 14:46:31 · 600 阅读 · 0 评论 -
Python爬虫学习记录——17.分布式爬虫
文章目录分布式系统scrapy_redis分布式实战redis desktop manager软件安装及使用其他的分布式系统分布式系统当爬取内容过多,需要多机合作的时候,就需要用到分布式系统,这节博客讲解一下分布式爬虫的实现。什么是分布式系统分布式系统就是把一些计算机通过网络连接起来,然后协同工作协同工作需要解决两个问题:任务分解把一个问题拆解成若干个独立任务,每个任务在一台节点...原创 2019-10-29 14:28:47 · 423 阅读 · 0 评论 -
Python爬虫学习记录——16.去重与入库
文章目录数据去重URL去重数据库去重数据去重数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所以数据去重至关重要。数据去重可以从两个节点入手:一个是URL去重。即直接筛选掉重复的URL;另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。URL去重为什么需要进行URL去重?在爬虫启动工作的过程中...原创 2019-10-28 19:50:32 · 624 阅读 · 0 评论 -
Python爬虫学习记录——15.HTTP请求分析
文章目录Chrome浏览器讲解Console(控制台)面板Chrome浏览器讲解Chrome浏览器相对于其他的浏览器而言,DevTools(开发者工具)非常强大。本篇博客将介绍怎么利用Chrome浏览器的开发者工具进行HTTP请求分析打开Chrome开发工具在Chrome菜单中选择更多工具 >开发者工具在页面元素上右键点击,选择“检查”或者使用快捷键:Ctrl+Shift+I ...原创 2019-10-28 16:05:47 · 975 阅读 · 0 评论 -
Python爬虫学习记录——14.Scrapy的Request和Response详解
文章目录前言Request对象Response对象实战前言上篇博客我们学习了中间件,知道了怎么通过中间件执行反反爬策略。本篇博客主要介绍Scrapy框架的request对象和response对象通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序Request类和Response类都有一些子类...原创 2019-10-28 14:07:48 · 2384 阅读 · 0 评论 -
Python爬虫学习记录——13.Scrapy的中间件
文章目录中间件简介下载中间件三大函数实战系统默认提供的中间件中间件简介上一篇博客中我们学习怎么去保存爬取的结果,然而大多数时候裸奔的请求很容易被网站反爬技术识别,导致并不能获取到我们想要的数据,我们该怎么做呢?中间件就可以帮你解决这些事。Scrapy框架中的中间件主要分两类:蜘蛛中间件和下载中间件。其中最重要的是下载中间件,反爬策略都是部署在下载中间件中的蜘蛛中间件蜘蛛中间件是介入到Sc...原创 2019-10-27 23:57:39 · 475 阅读 · 0 评论 -
Python爬虫学习记录——12.Scrapy的项目管道
文章目录Item管道(Item Pipeline)的介绍实战Item管道(Item Pipeline)的介绍上篇博客已学习了选择器的应用,可是爬取到了结果该怎么处理呢?本节博客主要介绍Scrapy框架的另一部分——Item管道,用于处理爬取到的数据管道是什么主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特...原创 2019-10-27 18:43:26 · 475 阅读 · 0 评论 -
Python爬虫学习记录——11.Scrapy选择器的用法
文章目录四大选择器CSS选择器Xpath选择器正则表达式pyquery选择器四大选择器当我们抓取网页时,最常见任务就是从HTML源码中提取数据,可是怎么提取数据呢?当然就是用选择器了.Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),通过特定的 Xpath 、 CSS 表达式或者正则表达式来选择 HTML 文件中的某个部分的数据。我们常用的选择器有四种:CSS选...原创 2019-10-27 17:14:36 · 467 阅读 · 0 评论 -
Python爬虫学习记录——10.Scrapy安装及基本使用
文章目录Scrapy的安装Scrapy爬虫的使用第一个Scrapy项目Scrapy常用命令行命令Scrapy项目文件的结构及用途Scrapy的安装这里仅介绍Windows系统下的安装流程方法一: 命令行执行pip install scrapy 安装scrapy注意:如果有miniconda,也可以打开“Anaconda prompt”,激活环境以后使用命令:conda install ...原创 2019-10-27 15:47:50 · 1107 阅读 · 0 评论 -
Python爬虫学习记录——9.爬虫工程化及Scrapy框架初窥
文章目录Python适合做爬虫的原因爬虫的知识体系Scrapy框架简介Scrapy的工作流程Python适合做爬虫的原因语言本身简单,适合敏捷开发有比较完善的工具链足够灵活,以应对各种突然状况爬虫的知识体系前端相关知识:html,css,js;浏览器相关知识;各种数据库的运用;http协议的了解;对于前后台联动的方案;Scrapy框架简介什么是Scrapy框架?Sc...原创 2019-10-26 22:58:24 · 459 阅读 · 0 评论