用爬虫进行基本的网页信息抓取
1.首先我们先打开一个任意网站的链接并获取数据
(1).我们需要用到Python的urllib.request模块中的req和re模块因此我们先进行导入:
import urllib.request as req
import re
(2)打开任意网站获取数据并进行解码:
要注意不同网站类型需要不同的解码方式,也就是decode括号中的解码方式会随着网站类型的改变而改变具体内容可百度搜索,此处以国防科技大学本科招生信息网中录取分数网页为例。
webpage = req.urlopen('http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html') # 根据超链访问链接的网页
data = webpage.read() .decode('uft-8') # 读取超链网页数据,并解码
2.提取国防科技大学2016到2012每一年分数线子网站地址
注意提取的超链是相对地址,需要加上站点域名,拼接成完整的URL
即:子网页网址 = “http://”+ “www.gotonudt.cn” + “提取的url子串”
website = 'http://www.gotonudt.cn'
for year in range(2016,2011,-1):
index = data.find('国防科技大学%d年录取分数统计' % year)#进关键字的寻找
href = data[index-100:index].split('"')[3] # 提取url子串
ur