python基础学习-7(简单爬虫)

最新推荐文章于 2025-09-11 22:10:09 发布

转载最新推荐文章于 2025-09-11 22:10:09 发布 · 58 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/94julia/archive/2013/04/30/3052489.html

文章标签：

#python #爬虫

本文介绍了一个简单的Python脚本示例，该脚本使用正则表达式从指定URL中抓取所有jpg图片并将其下载到本地。通过输入目标网址，脚本能够解析网页源代码，提取出所有jpg格式图片的链接地址并逐一下载。

 
    1实例：下载某URL下的jpg图片

view source
print?

 
    01#!/usr/bin/python

    02import re#导入正则模块

    03import urllib#导入url模块

    04 

    05def getHtml(url):#获取url页面源代码

    06    page = urllib.urlopen(url)

    07    html = page.read()

    08    return html

    09 

    10def getImg(html):#下载url页面的jpg

    11    reg = r'src="(.*?\.jpg)" .* width'#括号.*?里面为非贪婪匹配

    12    imgre = re.compile(reg)#编译正则加快运行速度

    13    imgList = re.findall(imgre,html)

    14    x = 1

    15    for imgurl  in imgList:

    16        urllib.urlretrieve(img,'%s.jpg' % x)#下载jpg，并命名

    17        x = x+1

    18url = raw_input("please input your download url:")#输入url

    19html = getHtml(url)

    20getImg(html)