Scrapy爬取图片并分类到不同文件夹

该博客详细介绍了如何利用Scrapy框架进行图片爬取,并通过设置settings、定义items和编写spider及pipelines,将图片依据特定规则分类存储到不同的文件夹中。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy爬取图片并分类到不同文件夹

先设置settings

ITEM_PIPELINES = {
   
    # 自定义的图片处理管道
   'mzitu.pipelines.ImagesPipelinse': 300,
}
# 设置图片默认地址,必须设置
IMAGES_STORE = '/Users/paul/Desktop/images'
# 设置图片通道失效时间
IMAGES_EXPIRES =90
DOWNLOAD_DELAY = 0.5  # 延迟
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36"
DEFAULT_REQUEST_HEADERS = {
   
 	'Cookie':'Hm_lvt_dbc355aef238b6c32b43eacbbf161c3c=1562892240,1563870209; Hm_lpvt_dbc355aef238b6c32b43eacbbf161c3c=1563934170',
    'Referer': 'https://www.mzitu.com/mm/',
    'Upgrade-Insecure-Requests': '1'
}
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

items要保存的内容

class MzituItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 标题  也是设置目录
    title = scrapy.Field()
    # 图片地址
    imge_url = scrapy.Field()
    # 请求头要添加的来源网址
    Referer = scrapy.Field()
    # 图片名称
    image_Path = scrapy.Field()

spider内容

# -*- coding: utf-8 -*-
import scrapy

from mzitu.items import MzituItem

clas
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值