用scrapy爬取妹纸网站图片，并储存在本地

原创于 2018-08-22 09:04:56 发布 · 462 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #爬虫 #图片

python笔记同时被 2 个专栏收录

13 篇文章

订阅专栏

爬虫

6 篇文章

订阅专栏

本文介绍了一个使用Scrapy框架编写的Python爬虫实例，该爬虫用于从美图网站抓取图集。具体实现包括定义爬虫类、解析网页内容以提取图片链接，并通过构建翻页功能实现连续抓取多个页面的内容。此外，还配置了数据保存路径以确保抓取的图片可以被正确存储。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# -*- coding: utf-8 -*-爬虫入口
import scrapy
from scrapypc.items import ScrapypcItem


class AppSpider(scrapy.Spider):
    name = 'app'
    allowed_domains = ['meizitu.com']
    # allowed_domains = []
    start_urls = ['http://www.meizitu.com/a/more_1.html']
    # rules = Rule()
    def parse(self, response):
        item =ScrapypcItem()
        item['image_name'] = response.xpath('//img//@src').extract()  # 提取图片链接
  
        yield item
#构建翻页
        for i in range(2,73):
            new_url ="http://www.meizitu.com/a/"+"more_%d.html" %i
            if new_url:
                yield scrapy.Request(new_url, callback=self.parse)

#settings模块设置

ITEM_PIPELINES = {
   # 'scrapypc.pipelines.ScrapypcPipeline': 300,
   'scrapy.pipelines.images.ImagesPipeline': 1,
}

# 要保存的字段，即在 Item 类中的字段名为 image_url
IMAGES_URLS_FIELD = 'image_name'

import os
# 配置数据保存路径，为当前工程目录下的 images 目录中
project_dir = os.path.abspath(os.path.dirname(__file__))
IMAGES_STORE = os.path.join(project_dir, 'images')