python爬取汽车之家_Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

本文介绍了如何使用Scrapy框架的ImagesPipeline爬取汽车之家网站上吉利博越车型的图片。从创建项目、编写items、Spider、Pipeline到设置配置文件,详细阐述了整个过程,实现了图片的分类存储。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目的

Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是:

FilePipeline

ImagesPipeline

这里主要介绍ImagesPipeline!!

目标分析:

这次我们要爬的是汽车之家:car.autohome.com.cn。最近喜欢吉利博越,所以看了不少这款车的资料。

我们就点开博越汽车的图片网站:

传统的Scrapy框架图片下载

Scrapy 框架的实施:

1.创建scrapy项目和爬虫:

$ scrapy startproject Geely

$ cd Geely

$ scrapy genspider BoYue car.autohome.com.cn

2.编写items.py:

import scrapy

class GeelyItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

# 存储图片分类

catagory = scrapy.Field()

# 存储图片地址

image_urls = scrapy.Field()

# ImagesPipeline

images = scrapy.Field()

3.编写Spider:

# -*- coding: utf-8 -*-

import scrapy

#导入CrawlSpider模块 需改写原来的def parse(self,response)方法

from scrapy.spiders import CrawlSpider ,Rule

#导入链接提取模块

from scrapy.linkextractors import LinkExtractor

from Geely.items import GeelyItem

class BoyueSpider(CrawlSpider):

name = 'BoYue'

allowed_domains = ['car.autohome.com.cn']

start_urls = ['https://car.autohome.com.cn/pic/series/37

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值