头歌:爬虫实战——网页抓取及信息提取

本文介绍了如何使用Python的urllib和正则表达式(re)库抓取国防科技大学本科招生信息网的录取分数,包括获取网页内容、提取子链接以及解析并分析网页数据的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第1关:利用URL获取超文本文件并保存至本地

# -*- coding: utf-8 -*-

import urllib.request as req

import os

import hashlib

# 国防科技大学本科招生信息网中录取分数网页URL:

url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/index.htm'  # 录取分数网页URL

def step1():

# 请按下面的注释提示添加代码,完成相应功能

#********** Begin *********#

# 1.将网页内容保存到data

    webpage = req.urlopen(url)  # 按照类文件的方式打开网页

    data = webpage.read()  # 一次性读取网页的所有数据

   

# 2.将读data以二进制写模式写入以学号命名的 “nudt.txt” 文件:

    outfile = open("nudt.txt", 'wb')  # 按二进制写方式打开文件

    outfile.write(data)  # 将网页数据写入文件

    outfile.close()

#********** End **********#

第2关:提取子链接

# -*- coding: utf-8 -*-

import urllib.request as req

# 国防科技大学本科招生信息网中录取分数网页URL:

url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/index.htm'  # 录取分数网页URL

webpage = req.urlopen(url)  # 按照类文件的方式打开网页

data 
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值