Pyhon基础:使用爬虫获取信息

最新推荐文章于 2025-02-14 22:30:00 发布

永恒pc

最新推荐文章于 2025-02-14 22:30:00 发布

阅读量1.1k

点赞数

CC 4.0 BY-SA版权

文章标签： Python基础

本文链接：https://blog.youkuaiyun.com/weixin_44363642/article/details/85604563

本文介绍了如何使用Python的urllib.request和re模块从网站获取数据。首先，导入必要的模块，然后打开并解码网站链接。接着，提取国防科技大学2016年至2012年的分数线子网站地址，并将相对URL与主站点拼接。最后，从网站中提取第一个表格的数据，通过replace函数清洗内容，并使用find函数提取保存到列表中。

用爬虫进行基本的网页信息抓取

1.首先我们先打开一个任意网站的链接并获取数据
- （1）.我们需要用到Python的urllib.request模块中的req和re模块因此我们先进行导入：
- (2)打开任意网站获取数据并进行解码:
2.提取国防科技大学2016到2012每一年分数线子网站地址
3.提取网站中一个表格的数据

1.首先我们先打开一个任意网站的链接并获取数据

（1）.我们需要用到Python的urllib.request模块中的req和re模块因此我们先进行导入：

import urllib.request as req
import re

(2)打开任意网站获取数据并进行解码:

要注意不同网站类型需要不同的解码方式，也就是decode括号中的解码方式会随着网站类型的改变而改变具体内容可百度搜索，此处以国防科技大学本科招生信息网中录取分数网页为例。

webpage = req.urlopen('http://www.gotonudt.cn/site/gfkdbkzsxxw/lqfs/index.html')      # 根据超链访问链接的网页
data = webpage.read() .decode('uft-8')          # 读取超链网页数据,并解码

2.提取国防科技大学2016到2012每一年分数线子网站地址

注意提取的超链是相对地址，需要加上站点域名，拼接成完整的URL
即：子网页网址 = “http://”+ “www.gotonudt.cn” + “提取的url子串”

    website = 'http://www.gotonudt.cn'
    for year in range(2016,2011,-1):
        index = data.find('国防科技大学%d年录取分数统计' % year)#进关键字的寻找
        href = data[index-100:index].split('"')[3] # 提取url子串
        ur