1号小爬虫：普通的爬虫，下载百度壁纸

最新推荐文章于 2025-07-08 16:03:12 发布

九茶

最新推荐文章于 2025-07-08 16:03:12 发布

阅读量3k

点赞数

CC 4.0 BY-SA版权

分类专栏： python 爬虫 Python爬虫文章标签： python 爬虫百度壁纸

本文链接：https://blog.youkuaiyun.com/Bone_ACE/article/details/50207535

python 同时被 3 个专栏收录

34 篇文章

订阅专栏

Python爬虫

27 篇文章

订阅专栏

爬虫

23 篇文章

订阅专栏

本文介绍了一个简单的Python爬虫项目，用于抓取百度壁纸图片。爬虫分为两步：首先使用urllib2.urlopen()获取网页源代码，然后利用正则表达式匹配图片URL并下载图片。文中还分享了如何指定图片保存路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

更多爬虫请见：我的爬虫史

代码说明：

曾经模仿实现过下载淘宝MM图片的爬虫，现在重新拾起爬虫，也是先从下载图片开始。本爬虫用来下载百度壁纸（传送门）。

1号小爬虫主要包括两个步骤：第一步用urllib2.urlopen()和read()方法获取网页源代码，第二步用正则表达式获取图片的url，并用urllib.urlretrieve()方法下载到本地。

主要的难点应该就在正则表达式的编写了，还有一个知识点就是：在保存图片的时候，命名的同时可以指定绝对路径。

源代码：

#encoding=utf-8
import urllib
import urllib2
import re

class Ordinary_spider(object):
    """ 普通的爬虫 ,功能：下载笔记本壁纸图片 """
    def __init__(self, url):
        self.url = url;
        self.myDownload(self.url)

    def getHtml(self, url):
        """ 获取网页源代码 """
        page = urllib2.urlopen(url)
        html = page.read()
        return html

    def getImg(self, html):
        """ 从源代码中获取图片的url，再根据这个url下载图片 """
        i = 1
        reg = "\"objURL\":\"(http://.*)\""    
        regg = re.compile(reg)
        urllist = regg.findall(html)        ## 获取图片的url，结果返回一个列表
        for url in urllist:         ## 下载图片
            fname = 'G:\\Temp\\IMG_download\\%d.jpg'%i      ## 图片的名字，指定绝对路径
            urllib.urlretrieve(url, fname)
            print "第 %d 张Finish:"%i,url
            i += 1

    def myDownload(self, url):
        html = self.getHtml(url)
        self.getImg(html)
        print "下载完成！"