Pyhon基础:使用爬虫获取信息

本文介绍了如何使用Python的urllib.request和re模块从网站获取数据。首先,导入必要的模块,然后打开并解码网站链接。接着,提取国防科技大学2016年至2012年的分数线子网站地址,并将相对URL与主站点拼接。最后,从网站中提取第一个表格的数据,通过replace函数清洗内容,并使用find函数提取保存到列表中。

1.首先我们先打开一个任意网站的链接并获取数据

(1).我们需要用到Python的urllib.request模块中的req和re模块因此我们先进行导入:

import urllib.request as req
import re

(2)打开任意网站获取数据并进行解码:

要注意不同网站类型需要不同的解码方式,也就是decode括号中的解码方式会随着网站类型的改变而改变具体内容可百度搜索,此处以国防科技大学本科招生信息网中录取分数网页为例。

webpage = req.urlopen('http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html')      # 根据超链访问链接的网页
data = webpage.read() .decode('uft-8')          # 读取超链网页数据,并解码

2.提取国防科技大学2016到2012每一年分数线子网站地址

注意提取的超链是相对地址,需要加上站点域名,拼接成完整的URL
即:子网页网址 = “http://”+ “www.gotonudt.cn” + “提取的url子串”

    website = 'http://www.gotonudt.cn'
    for year in range(2016,2011,-1):
        index = data.find('国防科技大学%d年录取分数统计' % year)#进关键字的寻找
        href = data[index-100:index].split('"')[3] # 提取url子串
        ur
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值