
Scrapy 爬虫框架
此专栏介绍了Scrapy框架的体系结构、项目创建、配置、爬虫HTML的抓取与价值信息的分析、数据库保存等相关操作
lsqzedu
专注Python、区块链技术文章分享
展开
-
01_体系结构与环境搭建
文章目录Scrapy简介Scrapy组件介绍pip安装scrapy Scrapy简介 一个快速、高层次的屏幕抓取和web抓取的Python框架,用于抓取web站点并从页面中提取结构化的数据,可以用于数据挖掘、监测和自动化测试,可根据具体需求个性化定制。Scrapy架构图: Scrapy组件介绍 Scrapy Engine(引擎):用来处理整个系统的数据传递,是整个系统的核心部分。 Sched...原创 2019-08-17 20:13:17 · 397 阅读 · 0 评论 -
02_第一个爬虫项目
文章目录创建一个scrapy项目创建Spider解析器项目功能模块介绍配置User-Agent 伪装请求启动爬虫获取数据 创建一个scrapy项目 虽然是采用cmd命令来创建,但是可以通过scrapy -h来查询相关的子命令,最后可以通过scrapy startproject douban方式来创建项目 C:\Users\Administrator\Desktop>scrapy -h ...原创 2019-08-17 20:44:39 · 617 阅读 · 0 评论 -
03_xpath语法介绍
文章目录Xpath简介Xpath语法Xpath实践 Xpath简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航,其实HTML就是一种特殊的XML,因此大家在学习XPath时需要了解基本的HTML和XML XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元...原创 2019-08-17 20:59:47 · 253 阅读 · 0 评论 -
04_xpath获取有价值的数据
文章目录豆瓣电影页分析第一页下载实现前5部电影数据如下 博文配套视频课程:24小时实现从零到AI人工智能 豆瓣电影页分析 已经向您讲解了如何在 XML 文档中查找信息,具体来说已经学会了如果获取元素、内容、属性,并且还知道如何通过标签的属性来进筛选与过滤。本章节来讲解如何通过xpath获取豆瓣的数据 第一页下载实现 # -*- coding: utf-8 -*- import scrap...原创 2020-02-21 12:47:31 · 351 阅读 · 0 评论 -
05_Item模型封装数据
文章目录创建Item模型层封装已爬取数据yield的语法介绍 创建Item模型层 前面我们已经可以把第一页的数据获取,但是仅仅是在控制台打印。在Scrapy还有一个Item的模块,此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中 import scrapy # 此类就是模型层,主要完成对价值数据的封装,然后在写入到数据库中 class DoubanItem(scrapy.Ite...原创 2019-08-17 21:31:36 · 433 阅读 · 0 评论 -
06_yield与自动翻页
yield优点 yield 的好处是显而易见的,把一个函数改写为一个 generator 就获得了迭代能力,比起用类的实例保存状态来计算下一个 next() 的值,不仅代码简洁,而且执行流程异常清晰 而在Scrapy爬虫框架中,yield有天然的使用场景,因为我们并不知道爬虫每次获取数据的大小,如果每次都一起返回则数据量会非常大,此时如果采用yield来优化,则代码会非常简洁且高效 yiel...原创 2019-08-17 21:40:55 · 242 阅读 · 0 评论 -
07_爬虫伪装与自动登录
文章目录反爬虫技术爬虫技术随机User-Agent设置 反爬虫技术 判断User-Agent,是否为浏览器 判断短时间内一个IP的访问次数 有些资源必须用户登录后才能访问 短时间同一个用户使用不同IP访问资源 异常登录 验证码,滑动单击验证 数据加密处理 爬虫技术 User-Agent:发起请求时添加头信息 伪装浏览器 短时间内访问次数限制 可以使用代理或者设置延迟爬取 登录后访问,模拟登...原创 2019-08-18 18:10:38 · 428 阅读 · 0 评论 -
08_基于IP的伪装
文章目录爬虫的伪装动态IP接入指南IP代理中间件编写Setting中配置Middleware 爬虫的伪装 如果不进行伪装则我们每次采用相同IP抓取数据时可以会被目前服务器的防火墙之别,伪装有两种:配置代理IP和user-agent中间件编写,需要先注册阿布云 动态IP接入指南 注册阿布云之后,可以选择1元购买1小时进行动态IP的测试。如果购买成功打开对应的接入指南会有提示scrapy的相...原创 2019-08-18 18:26:42 · 1735 阅读 · 0 评论 -
09_自动登录实现
登录验证的API推荐 滑动验证码破解平台:http://api.4xx3.cn/ 云打码:http://www.yundama.com/price.html 超级鹰:http://www.chaojiying.com/cases.html 如何发送登录表单 由于是表单,必须发送一个Post请求,因此创建FromRequest请求,并且设置登录成功后要执行的方法 class JsSpide...原创 2019-08-18 18:33:09 · 245 阅读 · 0 评论 -
10_基于验证码登录
文章目录PIL库基本介绍完成登录验证码识别操作 PIL库基本介绍 PIL:Python Imaging Library,已经是Python平台事实上的图像处理标准库了。PIL功能非常强大,但API却非常简单易用 # 加载图片 data = Image.open("../data/getcode.do.jpg") data.show() # 把图片转化为矩阵类型 data = np.array...原创 2019-08-18 18:38:53 · 218 阅读 · 0 评论 -
11_简书业务分析
文章目录简书结构分析创建简书爬虫项目创建crawl解析器配置简书下载格式 简书结构分析 创建简书爬虫项目 C:\Users\Administrator\Desktop>scrapy startproject jianshu New Scrapy project 'jianshu', using template directory 'd:\anaconda3\lib\site-packa...原创 2019-08-18 21:00:50 · 230 阅读 · 0 评论 -
12_获取简书文章数据
文章目录简书URL地址分析获取简书文章数据 简书URL地址分析 可以指定爬虫抓取的规则,支持正则表达式,目前简书 https://www.jianshu.com/p/df7cad4eb8d8 https://www.jianshu.com/p/07b0456cbadb?***** https://www.jianshu.com/p/.* rules = ( Rule(Li...原创 2019-08-18 21:18:25 · 223 阅读 · 0 评论 -
13_获取ajax数据
文章目录ChromeDriver介绍重构下载器增加ajax功能重写process_request方法 ChromeDriver介绍 chromeDriver 是 google 为网站开发人员提供的自动化测试接口,WebDriver是一个开源工具,用于在许多浏览器上自动测试webapps。它提供了导航到网页,用户输入,JavaScript执行等功能 ChromeDriver的安装一定要与Ch...原创 2019-08-18 21:28:34 · 204 阅读 · 0 评论 -
14_py连接mysql数据库
文章目录Pycharm中DataBase使用配置数据库连接信息选择schema,可以看到数据表信息打开sql面板,输入查询SQL执行 Pycharm中DataBase使用 显示Database功能(已有自动忽略) 窗口右侧打开Database 配置数据库连接信息 选择schema,可以看到数据表信息 打开sql面板,输入查询SQL执行 ...原创 2019-08-18 21:38:45 · 233 阅读 · 0 评论 -
15_爬虫数据入库
文章目录首先下载mysql驱动python连接mysql数据库数据插入操作数据更新操作数据查询操作查询分页实现 首先下载mysql驱动 C:\Users\Administrator>pip install mysql Looking in indexes: https://mirrors.aliyun.com/pypi/simple/ Collecting mysql Requiremen...原创 2019-08-18 21:52:51 · 353 阅读 · 0 评论 -
16_爬虫数据入库
文章目录创建数据库的表结构实现数据插入功能 创建数据库的表结构 -- auto-generated definition drop database if exists jianshu; create database jianshu default character set utf8; use jianshu; drop table if exists article; create ta...原创 2019-08-18 21:56:08 · 279 阅读 · 0 评论