爬虫简介
通过程序来爬取商城图片信息并存储于本地的项目
相关说明
1)解决https警告信息(ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed)的代码
import ssl
import logging
logging.captureWarnings(True) # 在调用 requests.get 时的处理
ssl._create_default_https_context = ssl._create_unverified_context # 在调用urlretrieve时的处理
2)对于urlretrieve之前较麻烦的做法
# 默认情况下,当您发出请求时,响应正文会立即下载,而设置stream参数为true,则只有响应头已经下载并且连接保持打开状态。
with requests.get(imurl, stream=True) as ir: # 使用with的好处不用考虑close关闭问题。
with open('./mypic/p'+str(m)+'.jpg', 'wb') as f:
for chunk in ir:
f.write(chunk)
- 在代码同级目录下建立mypic目录,当然也可以程序处理,这里只作为快速演示
全部代码
备注说明
如果想要爬取分页信息,像之前处理豆瓣网数据一样,分析分页参数并处理即可,详情可查看前博文。
本文介绍了一种使用爬虫抓取商城图片的方法,并详细解释了如何处理https证书验证失败的问题,提供了代码示例,包括禁用警告信息和使用stream参数优化图片下载流程。
724

被折叠的 条评论
为什么被折叠?



