用scrapy爬取妹纸网站图片,并储存在本地

本文介绍了一个使用Scrapy框架编写的Python爬虫实例,该爬虫用于从美图网站抓取图集。具体实现包括定义爬虫类、解析网页内容以提取图片链接,并通过构建翻页功能实现连续抓取多个页面的内容。此外,还配置了数据保存路径以确保抓取的图片可以被正确存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# -*- coding: utf-8 -*-爬虫入口
import scrapy
from scrapypc.items import ScrapypcItem


class AppSpider(scrapy.Spider):
    name = 'app'
    allowed_domains = ['meizitu.com']
    # allowed_domains = []
    start_urls = ['http://www.meizitu.com/a/more_1.html']
    # rules = Rule()
    def parse(self, response):
        item =ScrapypcItem()
        item['image_name'] = response.xpath('//img//@src').extract()  # 提取图片链接
  
        yield item
#构建翻页
        for i in range(2,73):
            new_url ="http://www.meizitu.com/a/"+"more_%d.html" %i
            if new_url:
                yield scrapy.Request(new_url, callback=self.parse)

#settings模块设置

ITEM_PIPELINES = {
   # 'scrapypc.pipelines.ScrapypcPipeline': 300,
   'scrapy.pipelines.images.ImagesPipeline': 1,
}

# 要保存的字段,即在 Item 类中的字段名为 image_url
IMAGES_URLS_FIELD = 'image_name'

import os
# 配置数据保存路径,为当前工程目录下的 images 目录中
project_dir = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(project_dir, 'images')
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值