scrapy下载图片

博客提及了Python爬虫项目中的几个关键文件,包括items.py、spider.py、settings.py和pipelines.py,这些文件在爬虫项目中承担着不同的功能,是构建爬虫程序的重要组成部分。

items.py

fishPicId = scrapy.Field()			#图片url地址。要是个列表
image_path = scrapy.Field()     	#->>保存img绝对路径。

spider.py

item['fishPicId'] = [img_src]         # ImagesPipeline用到的是图片的url列表

settings.py:

ITEM_PIPELINES = {
   'LXSpider.pipelines.LxspiderPipeline': 300,
    'LXSpider.pipelines.DownloadImagesPipeline': 100
}

import os
IMAGES_URLS_FIELD ="fishPicId"                              #fishPicId:在items.py中配置的爬取得图片地址
project_dir = os.path.abspath(os.path.dirname(__file__))    #获取当前爬虫项目的绝对路径
IMAGES_STORE = os.path.join(project_dir,'images')         #组装新的图片路径,设置图片存储目录
# IMAGES_MIN_HEIGHT = 1                                   #设定下载图片的最小高度
# IMAGES_MIN_WIDTH = 1                                 #设定下载图片的最小宽度

pipelines.py

'''保存图片绝对路径'''
from LXSpider.images.full import img_abspath
from scrapy.pipelines.images import ImagesPipeline
class DownloadImagesPipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        for ok, value in results:               # 通过断点可以看到图片路径存在results内
            image_file_path = img_abspath+str(value['path']).replace('/','\\')     # 将路径保存在item中返回
            item['image_path']=image_file_path
        return item
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

考古学家lx(李玺)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值