python批量爬取网页图片的初步实现

最新推荐文章于 2024-04-05 14:08:36 发布

原创

最新推荐文章于 2024-04-05 14:08:36 发布 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

本文分享了使用Python网络爬虫技术爬取网页图片的实践过程，包括获取HTML、提取图片链接及保存图片到本地的方法。通过具体案例，详细介绍了如何处理常见错误并优化代码。

最近本人正在学习python网络爬虫，尝试实现爬取网页图片，通过对网上一些相关博客的学习，目前初步实现，分享一下实现代码。

爬取图片的目标网页是https://findicons.com/pack/2787/beautiful_flat_icons：
在这里插入图片描述

1. 获取html

import requests 
import urllib.request
import re

html = requests.get('https://findicons.com/pack/2787/beautiful_flat_icons')
encoding = html.apparent_encoding #获取该页面的字符集编码类型
html.encoding = encoding #使用该编码类型来对页面编码
text = html.text

2. 从html内容中提取图片链接

text_splited = re.split(r'\s+',text) #将html内容按空格分割为一个列表
target = []
target_index = []

for i in text_splited:
    if(re.match(r'src',i)):
        if(re.match(r'.*?png',i)):
            target.append