Python爬虫(二)图片下载爬虫

本文介绍了一个简单的图片下载爬虫程序,该程序使用Python语言编写,能够从百度贴吧页面中抓取图片并保存到本地。爬虫利用urllib2模块获取网页内容,并通过正则表达式匹配图片链接。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

# _*_ encoding:utf-8 _*_

"""
图片下载爬虫
"""
import re
import urllib2
import urllib

#获取网页内容
def get_content(url):
    html=urllib2.urlopen(url)
    content=html.read()
    html.close()

    return content

#根据网页内容,通过正则获取图片url,最后下载
def get_images(info):
    """
    <img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
    sign=a66d6c61d60735fa91f04eb1ae500f9f/cc1ebe096b63f6246615f7798544ebf81a4ca305.jpg"
    pic_ext="jpeg" width="490" height="777">
    :param info:
    :return:
    """
    #首先观察html文件,找到一个规则
    #然后用正则表达式来表示这个规则
    regex=r'img class="BDE_Image" src="(.+?\.jpg)" '
    #.匹配除换行符之外的任意单个字符
    #+:表示匹配一次或多次
    #?:表示贪婪模式,尽可能少的匹配
    pat=re.compile(regex)
    images_code=re.findall(pat,info)

    #将图片保存到本地
    i=0

    for images_url in images_code:
        print images_url
        urllib.urlretrieve(images_url,'%s.jpg'%i)#保存在本地,参数1:图片地址,2:图片
        i+=1
    return images_code


url="http://tieba.baidu.com/p/2772656630"
info=get_content(url)
images=get_images(info)#images是一个列表类型
#print len(images)#输出列表的长度

       如果您喜欢我写的博文,读后觉得收获很大,不妨小额赞助我一下,让我有动力继续写出高质量的博文,感谢您的赞赏!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辉哥大数据

你的鼓舞将是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值