urllib爬取图片

原创

已于 2023-05-06 10:37:39 修改 · 1k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #java #开发语言

于 2023-05-06 10:02:44 首次发布

该文介绍了如何利用Python的urllib库下载单个和多个图片，包括指定URL链接直接下载及从网页源代码中匹配并下载图片。同时强调了版权问题和使用正则表达式提取图片链接的方法。

使用 urllib 库来爬取图片

import urllib.request

# 图片的 URL 链接
image_url = "http://img.netbian.com/file/2023/0415/235643ofSA0.jpg"

# 获取图片并保存到指定路径
urllib.request.urlretrieve(image_url, "image.jpg")

这段代码中，首先指定了要爬取的图片的 URL 链接，然后使用 urllib.request.urlretrieve() 函数将图片下载到指定的路径。你可以将 image_url 替换为实际的图片 URL，将 "image.jpg" 替换为保存图片的路径和文件名，如果路径不存在，系统会自动创建相应的文件夹。

需要注意的是，使用 urllib 库下载图片时，需要确保图片 URL 的有效性，否则程序可能会因为无法连接或者图片不存在等原因失败。同时，一些网站可能会针对爬虫做出限制，需要根据具体情况采取相应措施。

使用 urllib 库爬取多个图片可以通过循环遍历图片链接来实现，具体步骤如下：

导入 urllib.request 模块。
定义图片链接的列表或从网页中爬取图片链接并保存到列表中。
使用循环遍历列表中的图片链接。
使用 urllib.request.urlretrieve() 方法下载图片并保存到本地文件。

下面是示例代码：

import urllib.request

# 图片链接列表
img_urls = [
    'http://img.netbian.com/file/2023/0414/small234647agSR11681487207.jpg',
    'http://img.netbian.com/file/20