爬虫学习之-管道说明

最新推荐文章于 2025-04-13 16:52:10 发布

weixin_34088598

最新推荐文章于 2025-04-13 16:52:10 发布

阅读量129

点赞数

文章标签：爬虫 python

本文详细介绍了Scrapy框架中的图片和文件下载管道的配置与使用方法，包括必要的属性设置、配置选项及代码实现细节。

图片管道启用：
item中必须包含image_urls和images属性
image_urls中必须是列表，每个元素是一个带有http的链接
images里面数据任意，经过图片管道后会被重新赋值
图片管道必须被启用
配置文件中的选项：
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline':2,
# 'images.pipelines.ImagesPipeline': 1,
}
IMAGES_STORE = '图片存储路径'
IMAGES_MIN_HEIGHT = 1000 # 图片最小高度限制
IMAGES_MIN_WIDTH = 1200 # 图片最小宽度限制
IMAGES_EXPIRES = 90 # 失效时间，单位：天
IMAGES_THUMBS = { # 设置缩略图，可以多个键值对
'small':(50,50),
'big':(600,600)
}
文件管道总结
文件管道启用：
item中必须包含file_urls和files属性
file_urls中必须是列表，每个元素是一个带有http的链接
files里面数据任意，经过文件管道后会被重新赋值
文件管道必须被启用
配置文件中的选项：
课程中涉及的知识点
ITEM_PIPELINES = {
# 'images.pipelines.ImagesPipeline': 1,
'scrapy.pipelines.files.FilesPipeline':2,
}
FILES_STORE = '文件存储路径'
1、 Xpath函数，contains()，前者是源，例如text()，@src；后者是比较的字
符，例如http
2、 if判断，如果问号在字符串中，表达式 if '?' in 字符串
3、 列表操作，往列表中添加一个值，列表名.append(值)
4、列表操作，for循环列表中的每个值，for i in 列表
5、管道文件的位置，如下
from scrapy.pipelines.images import ImagesPipeline
from scrapy.pipelines.files import FilesPipeline
from scrapy.pipelines.media import MediaPipeline

关注博主即可阅读全文