
爬虫
yepoyou
一个小透明
展开
-
【爬虫】分布式爬虫
分布式爬虫分布式的实现实现流程概念:需要搭建分布式机群,让其对一组资源进行分布联合爬取分布式的实现安装scrapy-redis组件原生的scrapy是不可以实现分布式爬虫的,必须让scrapy结合scrapy-redis组件一起实现分布式爬虫为什么原生的scrapy不能实现分布式?【调度器、管道不可以被分布式机群共享】scrapy-redis作用:给scrapy框架提供可被共享的调度器、管道实现流程创建一个工程创建一个CrawlSpider的爬虫文件修改原始代码导入原创 2020-08-20 16:15:39 · 353 阅读 · 0 评论 -
【爬虫】CrawlSpider
CrawlSpider概念全站数据爬取的方式CrawlSpider的使用链接提取器规则解析器概念Spider的子类实现了全站数据爬取,即所有页码全站数据爬取的方式基于Spider:通用url模板,手动发送请求基于CrawlSpiderCrawlSpider的使用创建一个工程cd XXX创建爬虫文件(以CrawlSpider为父类)scrapy genspider -t crawl XXX www.xxxx.com链接提取器根据指定规则(allow=正则表达式)进行指定链接的提取原创 2020-08-20 14:42:23 · 177 阅读 · 0 评论 -
【爬虫】中间件
如图所示,下载中间件可以批量拦截整个工程中所有的请求和响应。拦截请求:UA伪装。在配置文件中设置的是基于全局的,所有请求均为同一个UA。若想尽可能多的使用不同UA给各个不同的请求,则只能使用下载中间件。代理IP。请求可能会被服务器禁掉。拦截响应:篡改响应数据,响应对象。...原创 2020-08-19 22:47:26 · 905 阅读 · 0 评论 -
【爬虫】scrapy图片爬取imagesPipeline
scrapy图片爬取爬取字符串和爬取图片的区别ImagesPipeline使用流程爬取字符串和爬取图片的区别字符串:基于xpath进行解析提价管道进行持久化存储图片:xpath解析出图片src属性,对图片地址发起请求获取图片二进制类型数据ImagesPipeline将img的src属性进行解析,提交到管道,管道会对src进行请求发送获取图片的二进制类型的数据且进行持久化存储使用流程数据解析。解析出图片地址。将存储图片地址的item提交到imagespipeline管道类在管道文件中自原创 2020-08-18 10:22:40 · 1092 阅读 · 0 评论 -
【爬虫】请求传参
使用场景爬取解析的数据不在用一个页面中,深度爬取需求爬取招聘网站某类的岗位名称、岗位描述import scrapyfrom spider.bossPro.bossPro.items import BossproItemclass BossSpider(scrapy.Spider): name = 'boss' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.zhipin.com/c101020原创 2020-08-17 19:54:04 · 352 阅读 · 0 评论 -
【爬虫】scrapy五大组件
原创 2020-08-17 17:41:23 · 216 阅读 · 0 评论 -
【爬虫】全站数据爬取,即所有页
将网站中某板块下的全部页码对应的页面数据进行爬取需求:抓取校花网中的照片名称实现方式: 将所有页面的url添加到start_urls列表(不推荐) 手动请求发送(推荐)爬虫文件import scrapyfrom spider.xiaohuaPro.xiaohuaPro.items import XiaohuaproItemclass XiaohuaSpider(scrapy.Spider): name = 'xiaohua' # allowed_.原创 2020-08-17 17:07:52 · 1603 阅读 · 1 评论 -
【爬虫】面试题:爬取的数据一份存到本地,一份存到数据库,如何实现?
持久化存储新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基原创 2020-08-17 13:01:22 · 756 阅读 · 1 评论 -
【爬虫】scrapy持久化存储
目录基于终端指令基于管道编码流程基于终端指令要求:只可以将parse方法的返回值存储到本地文本文件中 注意:存储类型有限制,见终端截图1 指令:scrapy crawl 爬虫名 -o 路径 优点:简洁高效便捷 缺点:局限性较强,后缀有限import scrapyclass QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.xxx.com'] start_u原创 2020-08-16 22:05:29 · 399 阅读 · 0 评论 -
【爬虫】scrapy数据解析
爬取如下:步骤:爬虫代码:import scrapyclass QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.xxx.com'] start_urls = ['https://www.qiushibaike.com/text/'] def parse(self, response): # 解析作者名称、段子内容 d...原创 2020-08-16 19:54:25 · 536 阅读 · 1 评论 -
【爬虫】scrapy基本使用
import scrapyclass ExampleSpider(scrapy.Spider): # 爬虫文件名称:爬虫文件的唯一标识 name = 'example' # 允许的域名:限定start_urls中哪些可以进行自动请求发送 # allowed_domains = ['www.baidu.com'] # 往往不用这一条限制 # 起始的url列表:该列表中的url会被scrapy自动请求发送 start_urls = ['http://ww.原创 2020-08-16 16:55:43 · 141 阅读 · 0 评论 -
【爬虫】scrapy框架
目录什么是框架如何学习框架什么是scrapyscrapy的基本使用环境安装基本使用什么是框架集成了很多功能,具有很强的通用性的项目模板如何学习框架学习框架封装的功能的详细用法 深层,底层封装源码了解什么是scrapy爬虫中封装好的明星框架。 高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式scrapy的基本使用环境安装Mac/Linux :pip install scrapyWindows:pycha...原创 2020-08-16 16:35:11 · 415 阅读 · 0 评论