scrapy-redis 实操应用----以4k风景为例

本文介绍如何使用Scrapy框架创建单机及分布式爬虫,针对netbian.com网站抓取壁纸图片,涵盖爬虫创建、配置及运行命令,适用于初学者实践。

首先,在终端打开redis数据库!

第一种(单机爬虫)创建命令:scrapy genspider -t crawl bizhi netbian.com

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class BizhiSpider(CrawlSpider):
    name = 'bizhi'
    allowed_domains = ['netbian.com']
    start_urls = ['http://pic.netbian.com/4kfengjing/']

    page_link = LinkExtractor(allow='http://pic.netbian.com/4kfengjing/index_2.html')

    rules = (
        Rule(page_link, callback='get_detail', follow=True),
    )

    def get_detail(self,response):
        print('--------------------')
        li_list = response.xpath('//div[@class="slist"]/ul/li')
        # print(li_list)
        for li in li_list:

            img = li.xpath('.//a/img/@src').extract_first('')
            print(img)

            title =li.xpath('.//a/b/text()').extract_first('')
            print(title)

settings里面设置如下:

ITEM_PIPELINES = {
   'bizhispider.pipelines.BizhispiderPipeline': 300,
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

#添加这两句代码
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy_redis的调度器,不使用scrapy默认的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

终端运行命令:scrapy crawl bizhi  即可

第二种(分布式)命令:scrapy genspider fengjing  netbian.com

import scrapy
#引入
from scrapy_redis.spiders import RedisCrawlSpider
#两者选其一
#from scrapy_redis.spiders import RedisSpider,Rule

#继承RedisCrawlSpider
class FengjingSpider(RedisCrawlSpider):
    name = 'fengjing'
    allowed_domains = ['netbian.com']

    # start_urls = ['http://pic.netbian.com/4kfengjing/index_3.html']

    redis_key = 'fengjingspider:start_urls'

    #规则
   #rules = (
     #   Rule(page_link, callback='parse', follow=True),
   # )

    def parse(self, response):
        print('--------------------')
        li_list = response.xpath('//div[@class="slist"]/ul/li')
        # print(li_list)
        for li in li_list:
            img = li.xpath('.//a/img/@src').extract_first('')
            print(img)

            title = li.xpath('.//a/b/text()').extract_first('')
            print(title)

settings里面设置同上

终端运行命令:scrapy crawl fengjiang   等运行暂停后,打开一个新的cmd终端,输入命令:redis-cli 

然后输入命令:lpush + redis-key值 + 需要请求的url,程序即可继续运行。

液体化学品分割数据集 一、基础信息 数据集名称:液体化学品分割数据集 图片数量: - 训练集:2550张图片 - 验证集:233张图片 - 测试集:82张图片 - 总计:2865张际场景图片 分类类别: - 电池酸:常见的腐蚀性液体,用于电池等设备。 - 漂白剂:强氧化性液体,常用于清洁和消毒。 - 冷却剂:用于发动机或工业设备的散热液体。 - 燃料:如汽油、柴油等易燃液体。 - 液压燃料:用于液压系统的专用液体。 - 机油:润滑油,用于机械维护。 标注格式: YOLO格式,包含分割多边形标注,适用于分割任务。 数据格式:来源于真环境图像,格式为JPEG/PNG,覆盖多种场景。 二、适用场景 工业安全与检查: 数据集支持分割任务,帮助构建能够自动识别和分割液体区域的AI模型,用于检测泄漏、溢出或不当存储,提升工作场所安全。 环境监测与风险评估: 集成至环境监控系统,时识别污染物液体,支持环境保护和风险预警。 制造业与自动化: 在制造过程中监控液体使用和状态,现质量控制和自动化管理。 学术研究与创新: 支持计算机视觉和人工智能在工业应用中的研究,促进算法开发和论文发表。 教育与培训: 可用于工程或安全培训课程,作为学习液体识别和处理的视觉资料。 三、数据集优势 精准标注与高质量: 每个分割多边形经过严格验证,确保标注准确性和一致性,覆盖液体区域的细节。 类别丰富多样: 包含六种关键工业液体,涵盖不同性质和风险,增强模型在多样场景下的识别能力。 真场景数据: 图片来源于际工业和环境设置,提供真世界的挑战,提升模型的用性和鲁棒性。 任务适配性强: 标注兼容YOLO等主流框架,便于快速集成和训练,支持分割及相关任务。 应用价值突出: 专注于工业安全和环境健康,为自动检测系统提供可靠数据,助力智能监控解决方案。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值