2021/6/1爬虫第十九次课(pipline管道的使用、items文件的使用)

本文介绍了Scrapy爬虫中piplines.py和items.py文件的使用,包括开启管道、数据传递等。还讲解了翻页处理方法,如找页数规律或下一页URL。以爬取中国古诗文网为例,给出了页面分析和代码示例,最后提及了包含保存功能的模板编程。

一、piplines.py文件的使用

1 开启管道
注意Item的对象 加入你引用了item文件 那么这个item不是一个dict对象 反之则是一个字典对象

ITEM_PIPELINES = {
‘mySpider.pipelines.MyspiderPipeline’: 300,
}

​’mySpider.pipelines.MyspiderPipeline’: 300 这可以复制,创建多个管道,300(权重)要改,权重越大,优先级越高

2 回到爬虫文件当中
需要把数据yield 给管道

  • 不会浪费内存
  • 翻页的逻辑 scrapy.Requst(url,callback,…) 通过yield来返回

    3 保存的逻辑 随意

二、items.py文件的使用

有两种导入的方式
# 方式一
# from day18.scrapy框架.mySpider.mySpider.items import MyspiderItem
# 方式二 Mark Directory as --> Sources Root
from mySpider.items import MyspiderItem # 小BUG

三、翻页的处理

  • 1 可以找页数的规律
  • 2 直接找下一页的Url地址 然后 yield scrapy.Request(url,callback=None)
next_href = response.xpath('//a[@id="amore"]/@href').get()
        # 翻页
        if next_href:
            next_url = response.urljoin(next_href) # urljoin()可以进行url地址的补全
            # request = scrapy.Request(next_url)
            # yield request
            yield scrapy.Request(
                url=next_url,
                callback=self.parse # 如果这个逻辑是这个parse 就可以省略
            
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

笔记本IT

您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值