scrapy 常用笔记

最新推荐文章于 2024-08-05 20:06:05 发布

原创最新推荐文章于 2024-08-05 20:06:05 发布 · 118 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

爬虫专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了Scrapy的安装、项目创建、爬虫生成及运行。通过实例展示了如何利用response.xpath解析数据，以及如何构造POST请求进行数据抓取。同时，讲解了Scrapy管道的使用，包括process_item函数的实现、open_spider和close_spider方法，以及如何根据不同的spider启用特定的pipeline。此外，还提及了中间件在爬虫项目中的作用。

scrapy的安装：pip install scrapy
创建scrapy的项目: scrapy startproject github
创建scrapy爬虫：在项目目录下执行 scrapy genspider git1 github.com
运行scrapy爬虫：在项目目录下执行 scrapy crawl git1
解析并获取scrapy爬虫中的数据：
1. response.xpath方法的返回结果是一个类似list的类型，其中包含的是selector对象，操作和列表一样，但是有一些额外的方法
2. extract() 返回一个包含有字符串的列表
3. extract_first() 返回列表中的第一个字符串，列表为空没有返回None
重载请求
```
   def start_requests(self):
```

构造post请求:

  yield scrapy.FormRequest(
         url='https://github.com/session',
         callback=self.login,
         formdata=post_data
     )

scrapy管道的基本使用:
1. 完善pipelines.py中的process_item函数
2. 在settings.py中设置开启pipeline
```
  ITEM_PIPELINES = {
    # 包名.文件名.类名
    'myspider.pipelines.MyspiderPipeline': 300,
  }
```
response响应对象的常用属性
1. response.url：当前响应的url地址
2. response.request.url：当前响应对应的请求的url地址
3. response.headers：响应头
4. response.requests.headers：当前响应的请求头
5. response.body：响应体，也就是html代码，byte类型
6. response.status：响应状态码
建模
1. 在items中定义模型
2. 导入job中
pipeline中常用的方法：
process_item(self,item,spider):
- 管道类中必须有的函数
- 实现对item数据的处理
- 必须return item
open_spider(self, spider): 在爬虫开启的时候仅执行一次
close_spider(self, spider): 在爬虫关闭的时候仅执行一次
根据相应spider执行相应的pipeline。
```
  if spider.name == 'job':
```
中间件