一、piplines.py文件的使用
1 开启管道
注意Item的对象 加入你引用了item文件 那么这个item不是一个dict对象 反之则是一个字典对象
ITEM_PIPELINES = {
‘mySpider.pipelines.MyspiderPipeline’: 300,
}
’mySpider.pipelines.MyspiderPipeline’: 300 这可以复制,创建多个管道,300(权重)要改,权重越大,优先级越高
2 回到爬虫文件当中
需要把数据yield 给管道
- 不会浪费内存
- 翻页的逻辑 scrapy.Requst(url,callback,…) 通过yield来返回
3 保存的逻辑 随意
二、items.py文件的使用
有两种导入的方式
# 方式一
# from day18.scrapy框架.mySpider.mySpider.items import MyspiderItem
# 方式二 Mark Directory as --> Sources Root
from mySpider.items import MyspiderItem # 小BUG
三、翻页的处理
- 1 可以找页数的规律
- 2 直接找下一页的Url地址 然后 yield scrapy.Request(url,callback=None)
next_href = response.xpath('//a[@id="amore"]/@href').get()
# 翻页
if next_href:
next_url = response.urljoin(next_href) # urljoin()可以进行url地址的补全
# request = scrapy.Request(next_url)
# yield request
yield scrapy.Request(
url=next_url,
callback=self.parse # 如果这个逻辑是这个parse 就可以省略

本文介绍了Scrapy爬虫中piplines.py和items.py文件的使用,包括开启管道、数据传递等。还讲解了翻页处理方法,如找页数规律或下一页URL。以爬取中国古诗文网为例,给出了页面分析和代码示例,最后提及了包含保存功能的模板编程。
最低0.47元/天 解锁文章
673





