Python爬虫爬下IT之家图片

爬取网页图片并下载

最新推荐文章于 2025-09-25 09:55:06 发布

原创最新推荐文章于 2025-09-25 09:55:06 发布 · 988 阅读

1 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

7 篇文章

订阅专栏

本文介绍了一种使用Python爬取指定网页上的图片链接，并将这些图片下载到本地的方法。通过urllib和正则表达式模块实现了图片链接的抓取与下载流程。

#coding:utf-8
import urllib
import re

url = "http://www.ithome.com/html/it/221721.htm"
html = urllib.urlopen(url)
content = html.read()
html.close()

# 通过正则匹配图片特征,并获取图片链接
img_tag = re.compile(r'data-original="(.+?\.jpg)"')
img_links = re.findall(img_tag, content)
print img_links

# 下载图片 img_counter为图片计数器(文件名)
img_counter = 0
for img_link in img_links:
    img_name = '%s.jpg' % img_counter
    urllib.urlretrieve(img_link, "D://dataset//%s" %img_name)
    img_counter += 1