python爬取图片链接标签的src属性值_python爬取图片遇见src乱码: data:image/png;base64...

本文介绍了在Python爬虫过程中遇到的图片src属性值为data:image/png;base64编码的问题。Data URI scheme是为了将小数据直接嵌入网页,避免额外的HTTP请求。解决方法是使用Python的base64库将base64编码的字符串转换为字节,然后保存为图片。文中提供了示例代码,但作者表示尚未成功。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python爬取图片遇见src乱码: data:image/png;base64

向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64。搞了我好长时间,试过伪装headers,也试过通过修改网页js的内容来让img的src显示出来,也试过修改div的display属性,但是全部都没用,最后了解了才知道,这是Data URI scheme。

一:Data URI scheme:

目的是将一些小的数据,直接嵌入到网页中,从而不用再从外部文件载入。比如上面那串字符,其实是一张小图片,将这些字符复制黏贴到火狐的地址栏中并转到,就能看到它了,一张1X36的白灰png图片

数据分类:data表示取得数据的协定名称,image/png 是数据类型名称,base64 是数据的编码方法,逗号后面就是这个image/png文件base64编码后的数据

这样写的好处(对我这种萌新来说简直灾难):图像文件的内容直接写在了HTML 文件中,节省了一个HTTP 请求。

二:使用python爬取解决的方法

解决思路:

它就是普通的  属性值。使用你的能够解析 html 的解析器,找到 image element,取得它的 src 属性值,将base64 格式的字符串转为 byte[ ],然后放到 MemoryStream 中供 Image 控件读取,画出图片。(如果只是输出,得到 byte[ ] 数据结构即可)

举例:

<
首先,我们需要用Python进行网页爬取,找到包含data:image/png;base64格式图片标签。可以使用BeautifulSoup库来解析网页,并使用find方法找到img标签中class为comicimg的元素,然后获取其src属性,即为图片数据的base64编码字符串。 接下来,我们需要将base64编码的字符串解码,并保存为图片文件。可以使用base64库的b64decode方法将字符串解码为二进制数据。然后,我们可以将解码后的数据写入文件中。 请注意,有时候导出来的图片可能是空白的,这可能是因为解码后的数据不正确,或者图片本身就是空白的。在存储图片之前,可以尝试将解码后的数据进行保存并查看,以确保数据正确。 下面是一个示例代码,可以实现爬取data:image/png;base64格式图片并保存的功能: ```python import requests import base64 # 发送请求获取网页内容 url = 'http://example.com' # 替换为目标网页的URL response = requests.get(url) html = response.text # 解析网页内容 from bs4 import BeautifulSoup bs = BeautifulSoup(html, 'html.parser') # 获取图片数据的base64编码字符串 strings = str(bs.find(name="img", attrs={"class": "comicimg"}).get('src')) # 解码base64编码的字符串 head, encode = strings.split(',', 1) image_data = base64.b64decode(encode) # 将解码后的数据保存为图片文件 with open('image.png', 'wb') as f: f.write(image_data) ``` 以上代码可以爬取指定URL的网页内容,并查找class为comicimg的img标签,获取其中的图片数据。然后将图片数据解码并保存为image.png文件。请注意,需要将代码中的url替换为你要爬取的网页的URL,以及根据需要修改保存的文件名。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [python爬取图片遇见src乱码data:image/png;base64](https://blog.csdn.net/weixin_39834780/article/details/114445179)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值