2021/6/1爬虫第十九次课（pipline管道的使用、items文件的使用）

最新推荐文章于 2022-10-31 16:45:35 发布

原创

最新推荐文章于 2022-10-31 16:45:35 发布 · 561 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#piplines #scrapy

本文介绍了Scrapy爬虫中piplines.py和items.py文件的使用，包括开启管道、数据传递等。还讲解了翻页处理方法，如找页数规律或下一页URL。以爬取中国古诗文网为例，给出了页面分析和代码示例，最后提及了包含保存功能的模板编程。

文章目录

一、piplines.py文件的使用
二、items.py文件的使用
三、翻页的处理
四、案例练习（爬中国古诗文网）
五、到目前为止模板的编程（包含保存）

一、piplines.py文件的使用

1 开启管道
注意Item的对象加入你引用了item文件那么这个item不是一个dict对象反之则是一个字典对象

ITEM_PIPELINES = {
‘mySpider.pipelines.MyspiderPipeline’: 300,
}

’mySpider.pipelines.MyspiderPipeline’: 300 这可以复制，创建多个管道，300（权重）要改，权重越大，优先级越高

2 回到爬虫文件当中
需要把数据yield 给管道

不会浪费内存
翻页的逻辑 scrapy.Requst(url,callback,…) 通过yield来返回

3 保存的逻辑随意

二、items.py文件的使用

有两种导入的方式
# 方式一
# from day18.scrapy框架.mySpider.mySpider.items import MyspiderItem
# 方式二 Mark Directory as --> Sources Root
from mySpider.items import MyspiderItem # 小BUG

三、翻页的处理

1 可以找页数的规律
2 直接找下一页的Url地址然后 yield scrapy.Request(url，callback=None)

next_href = response.xpath('//a[@id="amore"]/@href').get()
        # 翻页
        if next_href:
            next_url = response.urljoin(next_href) # urljoin()可以进行url地址的补全
            # request = scrapy.Request(next_url)
            # yield request
            yield scrapy.Request(
                url=next_url,
                callback=self.parse # 如果这个逻辑是这个parse 就可以省略