爬虫学习之-管道说明

本文详细介绍了Scrapy框架中的图片和文件下载管道的配置与使用方法,包括必要的属性设置、配置选项及代码实现细节。
图片管道启用:
item中必须包含image_urls和images属性
image_urls中必须是列表,每个元素是一个带有http的链接
images里面数据任意,经过图片管道后会被重新赋值
图片管道必须被启用
配置文件中的选项:
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':2,
# 'images.pipelines.ImagesPipeline': 1,
}
IMAGES_STORE = '图片存储路径'
IMAGES_MIN_HEIGHT = 1000 # 图片最小高度限制
IMAGES_MIN_WIDTH = 1200 # 图片最小宽度限制
IMAGES_EXPIRES = 90 # 失效时间,单位:天
IMAGES_THUMBS = { # 设置缩略图,可以多个键值对
'small':(50,50),
'big':(600,600)
}
文件管道总结
文件管道启用:
item中必须包含file_urls和files属性
file_urls中必须是列表,每个元素是一个带有http的链接
files里面数据任意,经过文件管道后会被重新赋值
文件管道必须被启用
配置文件中的选项:
课程中涉及的知识点
ITEM_PIPELINES = {
# 'images.pipelines.ImagesPipeline': 1,
'scrapy.pipelines.files.FilesPipeline':2,
}
FILES_STORE = '文件存储路径'
1、 Xpath函数,contains(),前者是源,例如text(),@src;后者是比较的字
符,例如http
2、 if判断,如果问号在字符串中,表达式 if '?' in 字符串
3、 列表操作,往列表中添加一个值,列表名.append(值)
4、列表操作,for循环列表中的每个值,for i in 列表
5、管道文件的位置,如下
from scrapy.pipelines.images import ImagesPipeline
from scrapy.pipelines.files import FilesPipeline
from scrapy.pipelines.media import MediaPipeline

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值