爬虫一些爬取图片时出现的错误

最新推荐文章于 2024-02-01 09:59:25 发布

原创最新推荐文章于 2024-02-01 09:59:25 发布 · 1.2w 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

在大规模爬取图片过程中，可能会遇到IP被封、HTTP连接数限制等问题。解决方法包括更换IP、设置代理、调整请求头，以及限制请求速度。例如，关闭持久连接可以减少资源占用，增加重试次数有助于应对网络不稳定。适当添加延时可以避免对服务器造成过大压力。

报错

** 在爬取大量图片时遇到的报错**
在这里插入图片描述

解决方法：

IP被封
更换headers或者换代理IP

proxies = {"http": "http://101.132.111.208:8082"}

** 注：代理分为http和https两种，不能用混。**

http的连接数超过最大限制。
request的连接数过多而导致Max retries exceeded
在header中不使用持久连接。
headers的Connection参数默认为keep-alive，导致之前所有的链接都一直存在，占用了后续的链接请求。

requests.adapters.DEFAULT_RETRIES = 5  # 增加重连次数
s = requests.session()
s.keep_alive = False  # 关闭多余连接

网站服务器太差，爬取请求的速度太快。

    time.sleep(1)

就我个人的情况而言：第一种方法更适用。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Neflibata_mo

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

vue keep-alive 保留切换后的状态，上一个状态，之前状态，tab切换

爱睡的虫虫

04-06

2010

keep-alive Props： include - 字符串或正则表达式。只有名称匹配的组件会被缓存。 exclude - 字符串或正则表达式。任何名称匹配的组件都不会被缓存。 max - 数字。最多可以缓存多少组件实例。用法：包裹动态组件时，会缓存不活动的组件实例，而不是销毁它们。和相似，是一个抽象组件：它自身不会渲染一个 DOM 元素，也不会出现在组件的父组件链中。当组件在 ...

Python 爬虫实战：爬取图片资源全攻略

u014481728的博客

02-09

696

网络爬虫（Web Crawler）是一种自动从网页上获取数据的程序。它通过不断地请求网页，解析网页内容，从中提取所需的信息，并且根据网页的链接，进一步访问其他网页。在爬取图片资源时，爬虫的主要任务是定位图片的 URL 并将其下载到本地。Python 爬虫实战中，爬取图片资源是一项非常重要且实用的技能。本文详细介绍了如何定位图片 URL、下载图片、存储和管理图片，以及如何处理各种高级问题。通过这些技巧，你可以轻松地获取互联网上的图片资源，并用于各种项目和研究中。Pillow。

参与评论您还未登录，请先登录后发表或查看评论

关于md导入时本地图片外链失败的解决方法

Harris-H的博客

01-17

1245

关于md导入时本地图片外链失败的解决方法因为md导入到博客或写进文章中时，不能识别本地图片的urlurlurl，所以外链会失败，一个解决方法就是将图片先上传到网络上，然后用网络链接即可，这里我用的时PicGoPicGoPicGo图床上传，而且TyporaTyporaTypora支持一键上传图片，非常方便。上面这个图片的链接就是我用PicGoPicGoPicGo上传之后的链接。但是不知道为什么有时候会失败，但是这个链接是可以用浏览器打开图片，如果失败的话，我们先进入链接，然后复制urlurlur

Python requests库中的会话对象与keep_alive属性详解

Leon_Jinhai_Sun的博客

02-01

1732

Python requests库中的会话对象与keep_alive属性详解

深夜，我用python爬取了整个斗图网站，不服来斗

欢迎关注公众号：【码农突围】，公号后台回复9999，可以获取一份500页的LeetCode刷题笔记。

03-25

1704

QQ、微信斗图总是斗不过，索性直接来爬斗图网，我有整个网站的图，不服来斗。废话不多说，选取的网站为斗图啦，我们先简单来看一下网站的结构网页信息从上面这张图我们可以看出，一页有多套图，这个时候我们就要想怎么把每一套图分开存放（后边具体解释）通过分析，所有信息在页面中都可以拿到，我们就不考虑异步加载，那么要考虑的就是分页问题了，通过点击不同的页面，很容易看清楚分页规则很容易明白分页URL...

关于图片爬取中出现的各种问题

m0_65272823的博客

08-18

554

关于图片爬取中出现的各种问题

用最简单爬虫爬取图片

12-21

本话题将详细讲解如何使用Python的requests库构建一个简单的图片爬虫，以爬取百度图片搜索的结果。首先，爬虫的基本步骤包括：发送请求、接收响应、解析数据以及存储数据。以下是一个简化的流程： 1. **发送请求*...

精选资源

python爬虫爬取网上图片

06-09

本项目是一个关于使用Python进行图片爬取的小型实践，旨在帮助学习者掌握基本的网页抓取和图片下载技能。首先，我们需要了解Python中的几个关键库。`requests`库用于发送HTTP请求获取网页内容，`BeautifulSoup`或`...

精选资源

Java实现爬虫，自动爬取图片

02-27

本项目关注的是使用Java实现一个简单的爬虫程序，能够自动爬取并下载指定网站的图片资源，这对于数据抓取、图像分析或者构建个性化图库等应用场景非常有用。首先，我们需要了解Java爬虫的基础知识。爬虫是通过模拟...

Python爬虫爬取图片代码.zip

最新发布

05-09

本篇文章将深入探讨Python爬虫爬取图片的方法、原理以及相关代码实现。首先，Python爬虫的基本工作流程包括发送请求、接收响应、解析内容以及提取所需数据四个步骤。对于爬取图片的任务而言，最重要的环节在于解析...

入坑爬虫之常见问题及解决方案

weixin_42499361的博客

08-22

2056

从学习爬虫开始，到学习爬虫的代码，再到自己写爬虫程序，遇到了各式各样的问题，每每都需要百度去搜索一个合适的解决方案，耗时耗力。所以把一些我遇到的问题和合适的解决方案记录下来。 1.爬取网页时，网页中文乱码乱码出现原因：源网页编码和爬取下来后的编码转换不一致。如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码，即当...

Python requests“Max retries exceeded with url” error

07-22

1776

error1: NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x00000000038F2B00>: Failed to establish a new connection:[WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应，连...

keep-alive

L_squan的博客

06-02

302

keep-alive keep-alive 标签包裹动态组件时，会缓存不活动的组件实例，而不是销毁它们。当组件在内被切换，它的 activated 和 deactivated 这两个生命周期钩子函数将会被对应执行。 <keep-alive :include="whiteList" :exclude="blackList" :max="amount"> <router-view></router-view> </keep-alive> inc

Struts2-052验证脚本

weixin_30604651的博客

11-19

414

下面分享一下Struts2-052验证的python脚本 #-*- coding:utf-8 -*- import requests url_list_path ="/home/d0ll4r/St2_052/UrlList.txt" s= requests.session() s.keep_alive = False headers = { "User-Agent":...

爬虫时候遇到python connection error max retries exceeded whith url 怎么解决？

weixin_42341608的博客

06-19

1749

import requests#关闭多余的连接s = requests.session()s.keep_alive = False#增加重试连接次数 s.adapters.DEFAULT_RETRIES = 511 url = 'https://s.m.taobao.com/search?m=api4h5&nick=%E4%BC%98%E8%A1%A3%E5%BA%93%E5%AE%98%...

【Python】关于Caused by SSLError Max retries exceeded with url 的错误

小白兔的窝

03-17

1万+

可能的问题和解决方法如下： 1.http连接太多没有关闭导致的解决方法1：关闭多余链接 import requests requests.adapters.DEFAULT_RETRIES = 5 # 增加重连次数 s = requests.session() s.keep_alive = False # 关闭多余连接 s.get(url) # 你需要的网址解决办法2：增加重连次数 requests.adapters.DEFAULT_RETRIES = 5 2.访问次数频繁，被禁..

python-requests官网_requests使用心得

weixin_36230923的博客

02-03

637

题记最近在用requests写一些项目，遇见了一些问题，百度了很多，有些都不太好使，最后看了下requestsAPI文档，才明白了很多，最后项目趋于稳定。看来学东西还是API文档比较权威啊~问题场景项目需要通过一台主机搭上代理向目标服务器定时交换数据，主机上同时跑着比较占用资源的其他项目。项目设计思路因为主机上已经运行了比较占用线程内存资源的其他项目，所以计划本项目就应该在不能太占用资源，的前提下...

Requests 之Max retries exceeded with url[Errno 10054]错误新解

mighty13的专栏

10-13

2万+

只要使用过requests模块，想必对Max retries exceeded with url[Errno 10054]错误都不会太陌生。这是requests常见的一种错误，原因就是连接太多没有关闭导致socket超时。一般的解读是urllib3的问题，因为requests是基于urllib3的，urllib3默认不支持长连接即keep-alive解决方案一requests.adapter

【Bug】python requests发起请求，报“Max retries exceeded with url”

热门推荐

学无止境、积少成多、厚积薄发

04-28

2万+

在本地机器上，高频率重复调用一个API接口，出现“Max retries exceeded with url”，拒绝连接的情况。楼主讲一下，遇到这个bug的过程：在服务器上开发了一个识别图像文字API接口，也部署好了，准备对接口进行测试，楼主准备对本地文件夹中的2000多张图片进行测试，也就是说需要重复调用API接口2000多次。请求接口50多次的时候，接口就不反馈信息了，报错，连接错误，无法连接，一开始以为是网络的问题，然后又重头开始调用直到调了300多次，报错，连接错误，无法连接，一直这么下去大

爬虫python爬取图片

03-25

### 使用 Python 编写爬虫抓取网页上图片的方法要使用 Python 抓取网页上的图片链接并下载它们，可以按照以下方法实现。此过程涉及解析 HTML 页面、查找 `<img>` 标签以及提取 `src` 属性中的 URL 链接。 #### 方法概述 HTML 中的图像通常由 `<img>` 标记表示，而其源地址则存储在 `src` 属性中。通过解析目标页面的 HTML 结构，可以找到所有的图片链接，并进一步将其保存到本地磁盘或其他位置[^1]。以下是具体的技术细节： 1. **发送 HTTP 请求获取网页内容** 可以借助 `requests` 库向指定网址发起请求，从而获得该网页的原始 HTML 数据。 2. **解析 HTML 文档** 利用第三方库 BeautifulSoup 或 lxml 对返回的数据进行解析，定位所有 `<img>` 元素及其对应的属性值。 3. **处理相对路径** 如果某些图片链接是以相对形式给出，则需结合网站域名构建完整的绝对路径。 4. **下载图片资源** 运用标准模块 urllib 下载远程文件至本地目录下。下面是一份完整的代码示例用于演示上述流程： ```python import requests from bs4 import BeautifulSoup import os import urllib.request def fetch_images(url, save_dir="images"): """ 从给定URL中提取所有图片链接并将它们下载到指定文件夹参数: url (str): 要访问的目标网页地址. save_dir (str): 存储所下载图片的位置，默认为当前工作区下的 'images' 文件夹. 返回: None """ # 创建保存图片的文件夹如果不存在的话 if not os.path.exists(save_dir): os.makedirs(save_dir) try: response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') img_tags = soup.find_all('img') # 查找所有的<img>标签 total_downloaded = 0 for idx, tag in enumerate(img_tags): src = tag.get('src') # 处理可能存在的相对路径情况 if src.startswith("//"): src = f"http:{src}" elif src.startswith("/"): base_url = "{0.scheme}://{0.netloc}".format(urllib.parse.urlparse(url)) src = base_url + src filename = os.path.join(save_dir, str(idx) + ".jpg") try: with open(filename, 'wb') as handle: res_img = requests.get(src, stream=True) if not res_img.ok: continue for block in res_img.iter_content(1024): if not block: break handle.write(block) print(f"成功下载第 {idx+1} 张图片 -> {filename}") total_downloaded += 1 except Exception as e: print(f"无法下载图片 {src}, 错误原因: {e}") print(f"\n总计已下载 {total_downloaded}/{len(img_tags)} 张有效图片.") except Exception as ex: print(f"发生错误：{ex}") if __name__ == "__main__": target_website = input("请输入您想抓取图片的目标网站:") fetch_images(target_website) ``` 这段脚本定义了一个函数 `fetch_images()` 来完成整个任务链路——从网络请求直到最终存入硬盘的操作都封装其中。此外还加入了异常捕获机制以便更好地应对各种潜在问题的发生场景[^2]。最后提醒一点，在执行任何类型的自动化程序之前，请务必查阅目标站点的服务条款或者查看是否存在 robots.txt 文件来确认是否允许此类活动。

爬虫 一些爬取图片时出现的错误

报错

爬虫一些爬取图片时出现的错误