Python爬取软科中国大学排名2020版网页

本文讲述了作者在更新Python爬虫以适应软科中国大学排名2020版网页变化的过程。通过getHTMLText、fillUnivList等方法获取和解析数据,并介绍了如何处理新页面结构、使用format函数对齐、去除多余空格以及写入Excel表格的问题。最后展示了爬虫的运行效果和成果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python爬取软科中国大学排名2020版网页

问题起因:

复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了,原来的爬虫就不能再使用了,所以我对爬虫进行了更新,使之恢复可用状态,并增加了写入Excel表格部分

目标页面:

软科——中国大学排名http://www.shanghairanking.cn/rankings/bcur/2020

爬虫方法设计:

方法:
(1)页面获取方法:getHTMLText(url)
(2)页面解读方法:fillUnivList(ulist,html)
(3)效果打印方法:printUnivList(ulist,num)
(4)写入Excel方法:save(path,ulist)

参数解读:
(1)ulist——存储解读结果的列表
(2)html——方法(1)读取的html页面
(3)num——爬取效果展示的数量
(4)path——写入的Excel的路径

用到的Python方法及更新部分讲解:

(1)使用format()函数对齐:
菜鸟教程:https://www.runoob.com/python/att-string-format.html
网友踩坑:https://blog.youkuaiyun.com/Andone_hsx/article/details/84025828

(2)原代码无法获取新网页学校名:
这是因为新页面的标签结构发生了一些变化,新页面的校名包裹在了a标签之内,父一级的td标签解读不到,老版网页包裹在div标签内就可以解读到
页面结构变化
所以我在原先代码的基础是又重新查询了一遍a标签,ulist的第二个元素相应作出更改
查询a标签

(3)新页面的标签内文本带有很长的空格,这个直接用strip()方法去掉即可,如上图

(4)instance方法使用:
菜鸟教程:https://www.runoob.com/python/python-func-isinstance.html

(5)关于写入Excel表:
目前只能使用 .xls 和 .csv 格式,.xlsx格式无法识别gbk编码,难受,小伙伴可以写入 .xls 再另存为成 .xlsx 格式,小伙伴如果有方法的话也可以在博客下留言哦

代码:

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30
评论 25
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值