Python爬虫（二）图片下载爬虫

最新推荐文章于 2022-03-13 12:25:13 发布

辉哥大数据

最新推荐文章于 2022-03-13 12:25:13 发布

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏：【Python3】小工具

本文链接：https://blog.youkuaiyun.com/silentwolfyh/article/details/52251700

【Python3】小工具专栏收录该内容

18 篇文章

订阅专栏

本文介绍了一个简单的图片下载爬虫程序，该程序使用Python语言编写，能够从百度贴吧页面中抓取图片并保存到本地。爬虫利用urllib2模块获取网页内容，并通过正则表达式匹配图片链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

# _*_ encoding:utf-8 _*_

"""
图片下载爬虫
"""
import re
import urllib2
import urllib

#获取网页内容
def get_content(url):
    html=urllib2.urlopen(url)
    content=html.read()
    html.close()

    return content

#根据网页内容，通过正则获取图片url，最后下载
def get_images(info):
    """
    <img class="BDE_Image" src="http://imgsrc.baidu.com/forum/w%3D580/
    sign=a66d6c61d60735fa91f04eb1ae500f9f/cc1ebe096b63f6246615f7798544ebf81a4ca305.jpg"
    pic_ext="jpeg" width="490" height="777">
    :param info:
    :return:
    """
    #首先观察html文件，找到一个规则
    #然后用正则表达式来表示这个规则
    regex=r'img class="BDE_Image" src="(.+?\.jpg)" '
    #.匹配除换行符之外的任意单个字符
    #+:表示匹配一次或多次
    #？：表示贪婪模式，尽可能少的匹配
    pat=re.compile(regex)
    images_code=re.findall(pat,info)

    #将图片保存到本地
    i=0

    for images_url in images_code:
        print images_url
        urllib.urlretrieve(images_url,'%s.jpg'%i)#保存在本地，参数1：图片地址，2：图片
        i+=1
    return images_code


url="http://tieba.baidu.com/p/2772656630"
info=get_content(url)
images=get_images(info)#images是一个列表类型
#print len(images)#输出列表的长度