
scrapy
SpringBears
这个作者很懒,什么都没留下…
展开
-
常见的反爬虫机制
- 总结反爬机制: - robots - UA伪装 - 验证码 - 代理 - cookie - 动态变化的请求参数 - js加密 - js混淆 - 图片懒加载 - 动态数据的捕获 - seleium:规避检测...原创 2020-04-22 16:10:05 · 740 阅读 · 0 评论 -
分布式爬虫的部署以及增量式爬虫的作用
- 分布式 - 概念:需要搭建一个分布式的机群,然后在机群的每一台电脑中执行同一组程序,让其对某一个网站的数据进行联合分布爬取。 - 原生的scrapy框架是不可以实现分布式? - 因为调度器不可以被共享 - 管道不可以被共享 - 如何实现分布式? - scrapy+scrapy_redis实现分布式 - scrapy...原创 2020-04-22 15:50:59 · 287 阅读 · 0 评论 -
CrawlSpider深度爬取
- CrawlSpider - 一种基于scrapy进行全站数据爬取的一种新的技术手段。 - CrawlSpider就是Spider的一个子类 - 连接提取器:LinkExtractor - 规则解析器:Rule - 使用流程: - 新建一个工程 - cd 工程中 - 新建一个爬虫文件:scra...原创 2020-04-22 11:41:01 · 508 阅读 · 0 评论 -
scrapy中专门用于二进制和bytes类型的数据下载的管道(下载图片)
img.py# -*- coding: utf-8 -*-import scrapyfrom imgPro.items import ImgproItemclass ImgSpider(scrapy.Spider): name = 'img' # allowed_domains = ['www.xxx.com'] start_urls = ['http://s...原创 2020-04-22 09:57:21 · 986 阅读 · 0 评论 -
scrapy与selenium结合爬取网易新闻
# -*- coding: utf-8 -*-import scrapyfrom selenium import webdriverfrom wangyiPeo.items import WangyipeoItemclass WangyiSpider(scrapy.Spider): name = 'wangyi' # allowed_domains = ['www.xxx...原创 2020-04-21 20:31:08 · 379 阅读 · 2 评论 -
scrapy的爬虫中间件和下载中间件
- scrapy的中间件 - 爬虫中间件 - 下载中间件(***):处于引擎和下载器之间 - 作用:批量拦截所有的请求和响应 - 为什么拦截请求 - 篡改请求的头信息(UA伪装) - 修改请求对应的ip(代理) - 为什么拦截响应 - 篡改响应数据,篡改响应对象...原创 2020-04-21 19:57:17 · 847 阅读 · 0 评论 -
scrapy通过手动请求传参来实现全站深度爬取
- 基于Spider父类进行全站数据的爬取 - 全站数据的爬取:将所有页码对应的页面数据进行爬取 - 手动请求的发送(get): yield scrapy.Request(url,callback) - 对yield的总结: - 向管道提交item的时候:yield item - 手动请求发送:yield scrapy.Req...原创 2020-04-21 18:07:50 · 404 阅读 · 0 评论 -
scrapy五大核心组件
- 基于Spider父类进行全站数据的爬取 - 全站数据的爬取:将所有页码对应的页面数据进行爬取 - 手动请求的发送(get): yield scrapy.Request(url,callback) - 对yield的总结: - 向管道提交item的时候:yield item - 手动请求发送:yield scrapy.Req...原创 2020-04-21 17:07:27 · 2480 阅读 · 1 评论 -
scrapy测试爬取虎牙部分数据(两种存储方式)
第1步:scrapy startproject huyaPro第2步:cd huyaProscrapy genspider huya www.xxx.com第3步:到setting中进行相关的设置第4步:进行数据解析 4.1:基于终端指令进行的持久化存储 def parse(self, response): ...原创 2020-04-21 15:22:32 · 313 阅读 · 0 评论 -
scrapy框架的基本使用
什么是框架? - 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中)- scrapy集成好的功能: - 高性能的数据解析操作(xpath) - 高性能的数据下载 - 高性能的持久化存储 - 中间件 - 全栈数据爬取操作 - 分布式:redis - 请求传参的机制(深度爬取) - scrapy中合理的...原创 2020-04-21 10:11:58 · 219 阅读 · 0 评论