-
scrapy的安装:pip install scrapy
-
创建scrapy的项目: scrapy startproject github
-
创建scrapy爬虫:在项目目录下执行 scrapy genspider git1 github.com
-
运行scrapy爬虫:在项目目录下执行 scrapy crawl git1
-
解析并获取scrapy爬虫中的数据:
- response.xpath方法的返回结果是一个类似list的类型,其中包含的是selector对象,操作和列表一样,但是有一些额外的方法
- extract() 返回一个包含有字符串的列表
- extract_first() 返回列表中的第一个字符串,列表为空没有返回None
-
重载请求
def start_requests(self): -
构造post请求:
yield scrapy.FormRequest( url='https://github.com/session', callback=self.login, formdata=post_data ) -
scrapy管道的基本使用:
- 完善pipelines.py中的process_item函数
- 在settings.py中设置开启pipeline
ITEM_PIPELINES = { # 包名.文件名.类名 'myspider.pipelines.MyspiderPipeline': 300, } -
response响应对象的常用属性
- response.url:当前响应的url地址
- response.request.url:当前响应对应的请求的url地址
- response.headers:响应头
- response.requests.headers:当前响应的请求头
- response.body:响应体,也就是html代码,byte类型
- response.status:响应状态码
-
建模
- 在items中定义模型
- 导入job中
-
pipeline中常用的方法:
-
process_item(self,item,spider):
- 管道类中必须有的函数
- 实现对item数据的处理
- 必须return item
-
open_spider(self, spider): 在爬虫开启的时候仅执行一次
-
close_spider(self, spider): 在爬虫关闭的时候仅执行一次
-
根据相应spider执行相应的pipeline。
if spider.name == 'job': -
中间件
scrapy 常用笔记
最新推荐文章于 2024-08-05 20:06:05 发布
本文详细介绍了Scrapy的安装、项目创建、爬虫生成及运行。通过实例展示了如何利用response.xpath解析数据,以及如何构造POST请求进行数据抓取。同时,讲解了Scrapy管道的使用,包括process_item函数的实现、open_spider和close_spider方法,以及如何根据不同的spider启用特定的pipeline。此外,还提及了中间件在爬虫项目中的作用。
306

被折叠的 条评论
为什么被折叠?



