头歌：爬虫实战——网页抓取及信息提取

原创

已于 2023-11-09 18:34:15 修改 · 9.1k 阅读

79 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

于 2023-11-09 18:29:04 首次发布

本文介绍了如何使用Python的urllib和正则表达式(re)库抓取国防科技大学本科招生信息网的录取分数，包括获取网页内容、提取子链接以及解析并分析网页数据的过程。

第1关：利用URL获取超文本文件并保存至本地

# -*- coding: utf-8 -*-

import urllib.request as req

import os

import hashlib

# 国防科技大学本科招生信息网中录取分数网页URL：

url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/index.htm'  # 录取分数网页URL

def step1():

# 请按下面的注释提示添加代码，完成相应功能

#********** Begin *********#

# 1.将网页内容保存到data

    webpage = req.urlopen(url)  # 按照类文件的方式打开网页

    data = webpage.read()  # 一次性读取网页的所有数据

   

# 2.将读data以二进制写模式写入以学号命名的 “nudt.txt” 文件：

    outfile = open("nudt.txt", 'wb')  # 按二进制写方式打开文件

    outfile.write(data)  # 将网页数据写入文件

    outfile.close()

#********** End **********#

第2关：提取子链接

# -*- coding: utf-8 -*-

import urllib.request as req

# 国防科技大学本科招生信息网中录取分数网页URL：

url = 'https://www.nudt.edu.cn/bkzs/xxgk/lqfs/index.htm'  # 录取分数网页URL

webpage = req.urlopen(url)  # 按照类文件的方式打开网页

data = webp

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yezz烨

关注关注

11
点赞
踩
79

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

爬虫实战——网页抓取及信息提取

Junds0的博客

07-02

7156

当我们想要在浏览器中打开一个网页时，需要在浏览器的地址栏中输入该网页的url，例如在地址栏中输入百度搜索网站的首页url：https://www.baidu.com/ ，点击确认后，浏览器将向服务器发出一个对该网的请求；服务器端收到请求后，会返回该网页的超文本文件，浏览器收到服务器端发来的网页超文本文件后，对其进行解析，然后在窗口中显示该超文本文件对应的网页。通过上一关卡，我们学会了如何对文件中的数据进行分析，现已将2016年国防科技大学录取的分数最高的3个省份，存储至本地文件中。

网页抓取及信息提取

Junds0的博客

05-13

6130

第1关：数据获取—分数线目录页在国防科技大学本科招生信息网url：http://www.gotonudt.cn/ 主页上，选择招生指南”中的“录取分数”，进入录取分数目录页。 # -*- coding: utf-8 -*- import urllib.request as req import os import hashlib # 国防科技大学本科招生信息网中录取分数目录页URL（镜像网站，本网站仅用于大学计算机课程实验，不代表官方网站！）： url = 'http://cslab.tpddns.cn

2 条评论您还未登录，请先登录后发表或查看评论

2 条评论

2301_79644223 2024.06.03
七元列表怎么变成列表

优快云-Ada助手 2023.11.11
恭喜你开始了博客创作的旅程！标题看起来很有趣，我对爬虫实战和网页抓取有些兴趣，期待能够从你的博客中学到一些新的知识。建议你在下一篇博客中可以分享一些实际案例或者具体的操作步骤，让读者更容易理解和跟随。希望你能够不断进步，期待你的下一篇作品！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1