关于爬取图片链接的一些处理

最新推荐文章于 2022-09-26 11:11:18 发布

原创最新推荐文章于 2022-09-26 11:11:18 发布 · 1.6k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #数据清洗

python的方法专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种使用Python的urllib.parse模块中的urljoin函数来处理并补全网页爬取过程中遇到的不完整URL的方法，这对于提升爬虫的数据处理效率和准确性至关重要。

日常的爬取数据时，对于一些图片以及网页url常常是不完整的。需要我们对其进行一些处理，保存完整的url到需要的文件中。这就需要我们对这些不完整的url进行补全的操作。

下面分享一个用来处理不完整url的方法。

from urllib.parse import urljoin

url = "/wcm.files/upload/CMSnq/201804/201804270445055.jpg"
new_url = urljoin("http://nyj.hanzhong.gov.cn/templet/hanzhongshi/showarticlelist.jsp?id=5847",url)
print(new_url)

得到的就是完整的url。
http://nyj.hanzhong.gov.cn/wcm.files/upload/CMSnq/201804/201804270445055.jpg

在爬虫中对于一些数据的处理，性能优化很有帮助。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

北房有佳人

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python爬虫实战：使用最新技术高效提取网页图片链接

2201_76125261的博客

07-18

196

在当今互联网时代，图片作为信息的重要载体，占据了网络内容的很大比例。据统计，现代网页中图片内容平均占页面总大小的60%以上。能够高效地从网页中提取图片链接，对于数据分析、内容聚合、数字营销等领域具有重要意义。

python用src无法爬取全部图片的解决办法

m0_52346971的博客

11-16

2541

python用src无法爬取全部图片的解决办法起源于我用get(‘src’)只能爬取网页起始的5张图片，剩下的返回None，当我调出完整的网页源代码后发现，原本的src=‘图片地址’，变成了data-ks-lazyload=‘图片地址’ Elements页面处图片位置是src 但查看完整网页源代码后就变成data-ks-lazyload 原因是网页图片延迟加载（为减轻网页加载压力，鼠标下滑浏览后才加载后续图片）解决方法：加一步get(‘data-ks-lazyload’) import reques

参与评论您还未登录，请先登录后发表或查看评论

利用Python爬虫抓取网页上的图片（含异常处理）

08-02

利用Python爬虫抓取网页上的图片，当遇到不合法的URL时，会自动处理异常，不会导致程序崩溃。直到下载完整个页面的图片，程序才会退出

爬虫爬取链接中文字_使用爬虫技术爬取图片链接并下载图片

weixin_39517902的博客

12-24

409

获取图片比获取文字更加复杂，获取文字在网页当中可以直接一次性的读取到文字；获取图片是获取图片的链接地址，然后通过链接地址下载到本地。第一步：如何获取图片的链接地址打开图片新闻的地址：https://www.infoq.com/presentations1.先获取图片地址：右键-查看源代码，获取新闻可以用文字的关键字搜索，作为图片在网页嵌入肯定会有img这样的标签，img后面跟着的链接地...

Scrapy crawlspider LoaderItem 对图片不完整链接的拼接

不断努力的数据汪

11-01

1169

在一次爬取图片链接过程中，发现图片路径不完整度娘了好半天，对URL路径拼接的方案有两种： 1.urllib.parse.urljoin() 2.进行字符串的拼接但是我的爬虫继承的事crawlspider,无法重写parse(重写就用不了它的方法了) 然后itemloader,无法在spider里进行上面这两种拼接方法，就尝试了在pipeline进行拼接，但是urljoin需要的u...

python爬虫爬取图片无法显示问题

believe__m的博客

09-26

4996

python爬虫爬取搜索图片无法显示问题

python多线程爬取图片（自动记录爬取页数，防止断网断电）

03-23

需要注意的是，实际应用中，你还需要处理一些其他问题，比如设置请求头以模拟浏览器行为，避免被服务器识别为爬虫；设置延时以减少对目标服务器的压力；以及错误处理，如重试机制等。此外，下载图片时可能会遇到各种...

Python爬取图片链接的Ico图片.docx

08-25

在Python编程中，爬取网页资源，特别是图片链接，是一项常见的任务。本示例主要讲解如何使用Python爬取并下载Ico格式的图片，以及如何使用正则表达式筛选特定类型的图片链接。以下是对相关知识点的详细说明： 1. ...

用最简单爬虫爬取图片

12-21

遍历找到的图片链接，再次使用requests库的GET方法获取图片的二进制数据，并使用Python的内置函数`open()`以二进制模式（'wb'）写入本地文件系统。 ```python n = 0 for image_url in image_urls: n += 1 res...

百度图片爬取_爬取_爬取图片_爬虫_python爬_python_

09-29

解析出图片链接后，我们可以使用requests库的get方法再次发送请求，这次是为了下载图片。下载的图片通常以二进制数据形式存在，我们可以将其保存到本地文件系统。Python的内置open函数配合'wb'模式可以实现这一点。...

爬取图片+python

11-01

在确认网站允许爬取之后，我们可以通过分析网页结构，找出图片链接的规律，为后续的自动化下载打好基础。进行图片爬取时，需要考虑的不仅是技术层面的问题，更重要的是遵守网站的robots.txt文件规则，这是网站管理...

python爬图一篇过（一）【超·详细】：selenium库：webdriver环境配置+新手基础知识

qq_53021454的博客

09-29

2351

前言：一个月前，博主在学过python（一年前）、会一点网络（能按F12）的情况下，凭着一腔编程改变世界的热血和对把电脑变成工具人的兴趣，开始了python爬虫的学习。一路过来可以说走了相当多弯路，但是前不久终于成功！！！（泪目）所以今天萌新我第一次斗胆在优快云上开一个栏目，分享我的python图片爬虫全实现过程，内心真的激动！！！希望过路大神能多多指教和鼓励，写得不对的地方请直接指出！老规矩上第一章的思维导图所谓之所以要基于selenium库爬虫，是因为现在网...

网络图片爬虫(几个简单步骤实现网页图片的爬取，详细步骤，超详细，简单易懂)

张茂洋的博客

03-02

3万+

网络图片爬取前提准备安装好开发库：Beautifulsoup4和requests，这两个库主要用于python爬虫，简单安装过程点这里开发库安装主要分为以下几个部分： 1. 分析网页，查看索要爬取网页的源代码(按F12或者CTRL+SHIFT+C)，选中你想要爬取的图片中的任意一个，下面以爱奇艺的首页为例，注意下图：可以看到图片标签，标识属性class，图片的url属性src（这三个接下来会用到） 2. 读取网页的内容代码如下： #导入两个开发库 import urllib.request

Python爬虫爬取网站全部图片实战

xixi20200的博客

10-13

1万+

一.获得图片地址和图片名称 1.进入网址之后按F12 打开开发人员工具点击elemnts 2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片 3.显示控制台为了验证xpath是否正确 4.通过xpath获得a的href 和 title. (请放大看)我们看到他提示的是有10个我们回到网站中看一下在主页上数一下他确实是10个也就是说我们获得的href 和title是没有任何问题的那么留着为我们后面使用. ...

python爬虫－爬取图片

尘埃落定

07-09

297

#!\bin\python #coding:utf-8 import urllib.request import re #获取页面信息 def get_html(url): page = urllib.request.urlopen(url)#打开网页 htmlcode = page.read()#读取页面源码 # print (htmlcode)#在控制台输出 ...

关于爬虫爬取图片被防盗链的解决

u013123635的博客

11-05

1万+

由于一些不可描述的原因，在使用jsoup爬取图片时被防盗链了。解决办法是URL url = new URL(""); // 获得连接 URLConnection connection = url.openConnection(); connection.setRequestProperty("Referer", "http://www.xxx.co

爬虫入门实践之图片爬虫

carson0408的博客

05-06

4208

现在电商平台网站是大家访问最多的网站之一，比如看重一个商品，想到电商网站下载相应的大量图片，如果采用一张张下载则会耗费很多时间。这里可以通过爬虫程序对该商品的图片进行自动下载。本文以在京东上搜索面霜为例子进行讲解。 1.了解待爬虫网页 https://list.jd.com/list.html?cat=1316,1381,1391点开该网址，即可进入面霜页面，里...

Python爬虫实战之爬取网站全部图片(二)

最新发布

07-04

编写一个使用 Python 免费爬取图片链接的程序通常涉及以下几个关键步骤：发送 HTTP 请求、解析 HTML 内容、提取图片链接以及下载图片。以下是详细的实现方法。 ### 1. 发送 HTTP 请求首先，需要向目标网站发送 HTTP 请求以获取网页内容。Python 提供了多种库来完成这一任务，其中最常用的是 `requests` 库。它简化了与 Web 服务的交互，并且易于使用。 ```python import requests url = 'https://example.com' response = requests.get(url) html_content = response.text ``` ### 2. 解析 HTML 内容为了从网页中提取信息，我们需要解析 HTML 文本。`BeautifulSoup` 是一个非常流行的用于解析 HTML 和 XML 文档的库，它可以轻松地遍历文档树并查找特定标签或属性。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') ``` ### 3. 提取图片链接 一旦获得了 `BeautifulSoup` 对象，就可以搜索所有的 `<img>` 标签来获取图片链接。这些链接可能包含相对路径，因此还需要处理它们转换为绝对 URL。 ```python for img_tag in soup.find_all('img'): relative_url = img_tag.get('src') # Convert relative URLs to absolute URLs if necessary absolute_url = requests.compat.urljoin(url, relative_url) print(absolute_url) ``` ### 4. 下载图片最后一步是下载找到的所有图片。可以利用 `requests` 来执行这个任务，并将文件保存到本地磁盘上。 ```python def download_image(image_url, destination_folder): response = requests.get(image_url, stream=True) if response.status_code == 200: filename = image_url.split('/')[-1] filepath = f"{destination_folder}/{filename}" with open(filepath, 'wb') as file: for chunk in response.iter_content(1024): file.write(chunk) # Example usage download_image(absolute_url, './images') ``` ### 注意事项 - **合法性**：在进行网络爬虫时，请确保遵守目标网站的服务条款和法律法规。 - **性能优化**：对于大规模的数据抓取，考虑使用异步请求或者分布式爬虫架构来提高效率。 - **错误处理**：增加异常处理逻辑，比如超时重试机制、状态码检查等，以增强程序健壮性。 - **User-Agent 设置**：有些网站会阻止没有设置 User-Agent 的请求，可以通过修改 headers 来模拟浏览器访问。以上就是使用 Python 编写免费图片链接爬虫的基本流程。当然，根据具体需求还可以扩展功能，例如支持多线程下载、自动分类存储等[^4]。