python爬取图片链接标签的src属性值_python爬取图片遇见src乱码： data:image/png;base64...

最新推荐文章于 2024-04-24 22:25:48 发布

weixin_39834780

最新推荐文章于 2024-04-24 22:25:48 发布

阅读量2.4k

点赞数

文章标签： python爬取图片链接标签的src属性值

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_39834780/article/details/114445179

版权

本文介绍了在Python爬虫过程中遇到的图片src属性值为data:image/png;base64编码的问题。Data URI scheme是为了将小数据直接嵌入网页，避免额外的HTTP请求。解决方法是使用Python的base64库将base64编码的字符串转换为字节，然后保存为图片。文中提供了示例代码，但作者表示尚未成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python爬取图片遇见src乱码： data:image/png;base64

向爬取自己喜欢的图片，但是在爬取下来的代码当中图片的src会出现乱码的情况：data:image/png;base64。搞了我好长时间，试过伪装headers，也试过通过修改网页js的内容来让img的src显示出来，也试过修改div的display属性，但是全部都没用，最后了解了才知道，这是Data URI scheme。

一：Data URI scheme：

目的是将一些小的数据，直接嵌入到网页中，从而不用再从外部文件载入。比如上面那串字符，其实是一张小图片，将这些字符复制黏贴到火狐的地址栏中并转到，就能看到它了，一张1X36的白灰png图片

数据分类：data表示取得数据的协定名称，image/png 是数据类型名称，base64 是数据的编码方法，逗号后面就是这个image/png文件base64编码后的数据

这样写的好处(对我这种萌新来说简直灾难)：图像文件的内容直接写在了HTML 文件中，节省了一个HTTP 请求。

二：使用python爬取解决的方法

解决思路：

它就是普通的属性值。使用你的能够解析 html 的解析器，找到 image element，取得它的 src 属性值，将base64 格式的字符串转为 byte[ ]，然后放到 MemoryStream 中供 Image 控件读取，画出图片。(如果只是输出，得到 byte[ ] 数据结构即可)

举例：

<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。