python爬取汽车之家_Python爬虫 --- 2.5 Scrapy之汽车之家爬虫实践

weixin_39777019

于 2020-12-18 10:41:45 发布

阅读量922

点赞数

文章标签： python爬取汽车之家

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39777019/article/details/111458137

版权

本文介绍了如何使用Scrapy框架的ImagesPipeline爬取汽车之家网站上吉利博越车型的图片。从创建项目、编写items、Spider、Pipeline到设置配置文件，详细阐述了整个过程，实现了图片的分类存储。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目的

Scrapy框架为文件和图片的下载专门提供了两个Item Pipeline 它们分别是：

FilePipeline

ImagesPipeline

这里主要介绍ImagesPipeline！！

目标分析：

这次我们要爬的是汽车之家：car.autohome.com.cn。最近喜欢吉利博越，所以看了不少这款车的资料。

我们就点开博越汽车的图片网站：

传统的Scrapy框架图片下载

Scrapy 框架的实施：

1.创建scrapy项目和爬虫：

$ scrapy startproject Geely

$ cd Geely

$ scrapy genspider BoYue car.autohome.com.cn

2.编写items.py:

import scrapy

class GeelyItem(scrapy.Item):

# define the fields for your item here like:

# name = scrapy.Field()

# 存储图片分类

catagory = scrapy.Field()

# 存储图片地址

image_urls = scrapy.Field()

# ImagesPipeline

images = scrapy.Field()

3.编写Spider:

# -*- coding: utf-8 -*-

import scrapy

#导入CrawlSpider模块需改写原来的def parse(self,response)方法

from scrapy.spiders import CrawlSpider ,Rule

#导入链接提取模块

from scrapy.linkextractors import LinkExtractor

from Geely.items import GeelyItem

class BoyueSpider(CrawlSpider):

name = 'BoYue'

allowed_domains = ['car.autohome.com.cn']

start_urls = ['https://car.autohome.com.cn/pic/series/37

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。