
python之scrapy框架爬虫
以实际项目出发介绍如何使用scrapy进行网页爬虫
py风之老凌
时光会把你雕刻成你想要的样子,但你必须珍惜它
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scrapy爬虫之使用中间件处理iframe问题
使用下载中间件实现selenium来请求网址 使用selenium的方式是为了解决,scrapy无法爬取到iframe方式嵌套的代码(iframe内联方式是常用的web开发框架之一) #中间件python文件 from scrapy import signals from scrapy.http import HtmlResponse class NanjinFilesDownloaderMiddleware: def process_request(self, request, spider原创 2020-07-17 15:01:43 · 1335 阅读 · 0 评论 -
scrapy爬虫之中间件
中间件分为两种 Download(下载器中间件):处理request的请求(一般用来设置代理、设置UA和cookies) Spider中间件:处理response请求(一般用来过滤无效数据、对特殊请求进行重试) 爬虫的流程 中间件使用注意(配置文件) 要使用中间件就必须在配置文件中启用中间件 也就是在settings.py文件中配置中间件 可以配置多个但是启动顺序不能相同,就按照默认的543往后加就可以 # Enable or disable spider middlewares # See h.原创 2020-07-17 11:17:55 · 385 阅读 · 0 评论 -
scrapy爬虫之Selenium测试工具的使用
Selenium是一个用于Web应用程序测试的工具。直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Firefox,Safari,Chrome,Opera等,在爬虫上则是模拟正常用户访问网页并获取数据。 安装 pip install selenium 安装驱动 使用selenium要根据相应的浏览器安装对应的驱动才能使用 以Firefox(火狐)为例 查看浏览器版本 浏览器版本尽量对应启动器版本,尽量选择发布日期接近的 下载gecko.原创 2020-07-15 10:31:06 · 213 阅读 · 0 评论 -
scrapy爬虫之利用管道下载文件和图片
文件下载原创 2020-07-14 14:09:00 · 1209 阅读 · 0 评论 -
scrapy爬虫之数据保存和管道
数据保存 在scrapy中负责数据导出的组件被称作Exporter,scrapy支持的数据导出格式有:json、json lines、csv、XML、pickle、Marshal 如果想使用其他的格式不如Excel,可以通过重写Exporter来实现(小编一般都通过管道的方式) scrapy中数据保存可以使用两种方式: 命令方式:scrapy crawl 标识 -t 格式 -o 文件名 配置文件方式:Exporter方式和管道的方式 命令方式 scrapy crawl 标识 -t 文件格式 -o 文原创 2020-07-14 11:32:36 · 1576 阅读 · 0 评论 -
scrapy爬虫之LinkExtractor的使用
LinkExtractor LinkExtractor构造器所有的参数都有默认值,如果构造对象不传参,默认提取页面中所有的链接 2020-07-13 15:24:53 [parso.python.diff] DEBUG: diff parser end In [1]: from scrapy.linkextractors import LinkExtractor In [2]:原创 2020-07-13 16:10:04 · 2166 阅读 · 0 评论 -
scrapy爬虫之使用模板实现双向爬虫
使用 crawl模板实现 scrapy genspider -t crawl books3 books.toscrape.com 初始化的文件内容 import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class Books3Spider(CrawlSpider): name = 'books3' allowed_domains原创 2020-07-13 15:06:02 · 217 阅读 · 0 评论 -
scrapy爬虫之使用ltemload进行数据清洗和双向的数据提取
双向数据提取 横向:从一个索引页到另一个索引页(水平爬取) 纵向:从一个索引页到数据详细页并抽取item(垂直爬取) 代码 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from ..items import ToscrapebookItem from scrapy.loader import ItemLoader class BooksSpider(scrapy.Spider): name = 'b原创 2020-07-13 12:10:23 · 489 阅读 · 0 评论 -
scrapy爬虫之xpath数据提取工具的使用
xpath是xml路径语言,它是一种来确定xml文档某部分位置的语言 html属于xml html的一般格式 <html> <head> 表题信息 </head> <body> 我们网页中看到的内容 </body> </html> xpath的基本语法 表达式 描述 /标签 选中根,或根下的第一层标签 //标签 全局匹配的标签 . 点前节点 … 当前节点的父节点 * 选择所有标签 .原创 2020-07-10 10:48:02 · 588 阅读 · 0 评论 -
scrapy爬虫之基本抓取流程和scrapy项目文件
基本流程图原创 2020-07-09 16:35:08 · 365 阅读 · 0 评论 -
scrapy爬虫之scrapy命令行
scrapy全局命令 全局命令有 startproject:创建项目 settings:查看设置信息 runspider:运行爬虫 shell:打开shell调试 fetch:下载网页信息 view:使用浏览器打开指定网址 version:查看版本 scrapy项目命令(需在项目中才能执行) 项目命令有 crawl:运行指定爬虫 check:检查爬虫代码 list:列出所有的爬虫 edit:使用默认的编辑器编辑爬虫 parse:使用爬虫抓取指定URL genspider:创建爬虫 bench:快速的性原创 2020-07-08 17:29:12 · 662 阅读 · 0 评论 -
scrapy爬虫之scrapy框架安装
centos7安装scrapy 方式1(源码安装) 首先你已经安装python环境:python安装过程 #git scrapy源码 git clone https://github.com/scrapy/scrapy.git cd scrapy/ python3 setup.py install 安装过程中可能会报错,一般都是缺少python依赖包,缺少啥用pip安装啥就可以 #做scrapy命令的软连接,这个命令下篇介绍 ln -s /usr/local/python3/bin/scrapy /usr/原创 2020-07-08 14:52:38 · 165 阅读 · 0 评论