第一个图片爬虫类

#!/usr/bin/python
# coding:utf-8

# 爬虫类
import urllib
import re

class GetImages:

    count = 0

    def __init__(self):
        print

    # 读取html
    def getHtmlContent(self, url):
        page = urllib.urlopen(url)
        return page.read()

    # 提取图片
    def getPicture(self, page):
        jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"') # 正则
        jpgs = re.findall(jpgReg, page)
        return jpgs

    # 下载
    def batchDownloadJPGs(self, jpgs, path='./'):
        num = 1
        for url in jpgs:
            urllib.urlretrieve(url, ''.join([path, '{0}.jpg'.format(num)]))
            num = num + 1
            self.count = self.count + 1

    # 开始爬数据
    def run(self, url):
        page = self.getHtmlContent(url)
        jpgs = self.getPicture(page)
        self.batchDownloadJPGs(jpgs)
        print '成功添加',self.count,'条张图片'

# 要抓取图片的页面
url = 'http://images.baidu.com/search/detail?z=0&word=%E6%91%84%E5%BD%B1%E5%B8%88%E5%88%98%E6%9C%8Bpeter&hs=0&pn=5&spn=0&di=0&pi=57629150605&tn=baiduimagedetail&is=0%2C0&ie=utf-8&oe=utf-8&cs=974474859%2C779207686&os=&simid=&adpicid=0&lpn=0&fm=&sme=&cg=&bdtype=-1&oriquery=&objurl=http%3A%2F%2Ff.hiphotos.baidu.com%2Fimage%2Fpic%2Fitem%2F9c16fdfaaf51f3de39827b3e99eef01f3a2979bc.jpg&fromurl=&gsm=0&catename=pcindexhot&islist=&querylist='

# 执行类
obj = GetImages()
obj.run(url)

转载于:https://my.oschina.net/lianglc/blog/2878878

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值