###python学习笔记之一:爬取贴吧首页的图片 ####一. 获取整个页面的数据
#coding:utf-8
import urllib
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
html = getHtml("http://tieba.baidu.com/")
print html
urllib模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取网上的资源. 首先,我们定义了一个getHtml()函数,其中urlopen()方法用来打开一个URL地址. read()方法用来读取URL上的数据,向getHtml()函数传递一个网址参数,将整个页面下载下来. ####二. 筛选需要的数据 利用正则表达式来获取想要的数据
#coding:utf-8
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url) #打开url地址
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist
html = getHtml("http://tieba.baidu.com/")
print getImg(html)
创建getImg()函数,用于在获取的整个页面中筛选需要的图片链接. re模块主要是包含了正则表达式 re.compile()可以把正则表达式编译成一个正则表达式对象 re.findall()方法读取html中包含imgre(正则表达式)的数据 运行脚本将得到整个页面中包含图片的URL ####三. 将筛选后的数据保存到本地 把筛选后的数据通过for循环保存到本地,这里默认是保存在当前文件夹中
#coding:utf-8
import urllib
import re
def getHtml(url):
page = urllib.urlopen(url) #打开url地址
html = page.read()
return html
def getImg(html):
reg = r'src="(.+?\.jpg)"'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x =0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1
return imglist
html = getHtml("http://tieba.baidu.com/")
print getImg(html)
urllib.urlretrieve()方法,直接将远程数据下载到本地 通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。 程序运行完成,将在目录下看到下载到本地的文件。