Python笔记：京东分类图片信息爬取之urlretrieve直接存储图片

最新推荐文章于 2020-08-26 17:48:46 发布

原创最新推荐文章于 2020-08-26 17:48:46 发布 · 397 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#图片数据爬取

Python 专栏收录该内容

110 篇文章

订阅专栏

本文介绍了一种使用爬虫抓取商城图片的方法，并详细解释了如何处理https证书验证失败的问题，提供了代码示例，包括禁用警告信息和使用stream参数优化图片下载流程。

爬虫简介

通过程序来爬取商城图片信息并存储于本地的项目

相关说明

1）解决https警告信息(ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed)的代码

import ssl
import logging

logging.captureWarnings(True) # 在调用 requests.get 时的处理
ssl._create_default_https_context = ssl._create_unverified_context # 在调用urlretrieve时的处理

2）对于urlretrieve之前较麻烦的做法

    # 默认情况下，当您发出请求时，响应正文会立即下载，而设置stream参数为true，则只有响应头已经下载并且连接保持打开状态。
    with requests.get(imurl, stream=True) as ir: # 使用with的好处不用考虑close关闭问题。
        with open('./mypic/p'+str(m)+'.jpg', 'wb') as f:
            for chunk in ir:
                f.write(chunk)