爬取图片过程遇到的ValueError: Missing scheme in request url: h 报错与解决方法

本文介绍了在使用Scrapy爬取图片时遇到的`ValueError: Missing scheme in request url: h`错误及其解决方法。通过分析错误原因,指出在处理图片链接时,start_urls和item中存储图片路径字段必须都是list,而不是将链接拆分为单个字符。文章提供了错误代码示例和修正后的代码,帮助读者理解并避免此类错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 、scrapy整体框架

1.1 scrapy框架图

  

 

1.2 scrapy框架各结构解析

  item:保存抓取的内容

  spider:定义抓取内容的规则,也是我们主要编辑的文件

  pipelines:管道作用,用来定义如何过滤、存储等功能(比如导出到csv或者mysql等功能)

  settings:配置例如ITEM_PIPELINES 、图片存储位置等等功能

  middlewares:下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response

  

1.3 数据流过程

  从start_urls 开始,Scheduler 会将其交给 Downloader 进行下载,下载之后会交给 Spider 进行分析,Spider 分析出来的结果有两种:一种是需要进一步抓取的链接,例如之前分析的“下一页”的链接,这些东西会被传回 Scheduler ;另一种是需要保存的数据,它们则被送到 Item Pipeline 那里,那是对数据进行后期处理(详细分析、过滤、存储等)的地方。另外,在数据流动的通道里还可以安装各种中间件,进行必要的处理。  

二、 爬取图片过程

2.1 整体介绍

2.1.1 环境

       Anocondas+python3.6

2.1.2 创建工程

1、创建hupu这个工程

E:\pgtool>scrapy startproject  hupu

 

2、创建相应的spiders

E:\pgtool>cd hupu##必须是进入到创建的项目中去建spiders

E:\pgtool\hupu>scrapy  genspider hp  hupu.com  ##hp=>生成hp.py ,爬虫名称为hp.py,允许访问的域名为hupu.com

通过爬取http://photo.hupu.com/nba/p35923-1.html网页中一个系列的图片

2.2 配置各组件

2.2.1 item.py
import scrapy


class HupuItem(scrapy.Item):
    # define the fields for your item here like:
    hupu_pic = scrapy.Field()
#    images = scrapy.Field()
    image_paths = scrapy.Field()

 

2.2.2 settings.py
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值