
爬虫
文章平均质量分 56
OceanProo
花即花雾即雾
展开
-
爬虫进阶之路
目录 前言请求库requests模块selenium模块 解析库lxml模块Beautiful Soup模块pyquery模块tesserocr模块数据存储MySQLMongoDBRedis Web模块flask模块django模块爬虫框架scrapy模块scrapy-splash模块scrapy-r...原创 2018-10-24 12:07:04 · 345 阅读 · 0 评论 -
python之scrapy(一)基础和入门
Scrapy框架的使用一、 Scrapy框架的介绍Scrapy是一个基于 Twisted 异步处理的框架,是一个纯python的网络爬虫框架,是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据或者通用的网络爬虫。Scrap...原创 2018-11-05 12:52:48 · 421 阅读 · 0 评论 -
python之scrapy(二)选择器的使用
{"cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "Selector的用法" ] }, { "cell_type": "markdown", "metadata": {}, &q原创 2018-11-05 13:52:40 · 1761 阅读 · 0 评论 -
python之scrapy(三)spider的用法
Scrapy框架中Spider的用法 在Scrapy里面,要抓取网站的链接配置、抓取逻辑、解析逻辑里,都是在Spider里面去完成的。一、Spider的运行流程在实现Scrapy爬虫项目里面,最核心的就是Spider类了,它定义了如何爬取某个网站的流程和解析方式。简单来讲,Spider就做两件事情: 定义爬取的动作 分析爬取下来的网页 对于Spider类来说,整...原创 2018-11-05 15:37:56 · 1460 阅读 · 0 评论 -
python之scrapy(四)downloader middlewares的用法
下载中间件是处于引擎(Engine)和下载器(DownLoader))之间的一层组件,可以有多个下载中间件被加载运行。 当引擎传递请求给下载器的过程中,下载中间件可以对请求进行处理 (例如增加http header信息,增加proxy信息等); 在下载器完成http请求,传递响应给引擎的过程中, 下载中间件可以对响应进行处理(例如进行gzip的解压等) 1.使用...原创 2018-11-05 16:48:18 · 7587 阅读 · 0 评论 -
python之scrapy(五)分布式爬虫
Scrapy是一个比较好用的Python爬虫框架,你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候,单个主机的处理能力就不能满足我们的需求了(无论是处理速度还是网络请求的并发数),这时候分布式爬虫的优势就显现出来。一、分布式爬虫的原理下面是单机版本的Scrapy框架:Scrapy单机爬虫中只有一个本地爬取队列Queue,如果新的Request生成,就...原创 2018-11-05 17:20:12 · 892 阅读 · 0 评论 -
python之scrapy(六)总结
1. Scrapy的基本原理Engine(引擎):控制数据流的走向Scheduler(调度器):请求的调度,维护了一个请求队列,当需要新的请求去跟网络进行交互的时候,就会从请求队列里面拿出一个request,(dontfliter=True,针对某一request的不去重)Downloader(下载器):主要用来跟Internet(目标服务器)进行交互Spiders(爬虫):实现爬...原创 2018-11-05 17:37:11 · 260 阅读 · 0 评论