Python爬取软科中国大学排名2020版网页

最新推荐文章于 2025-05-25 22:48:29 发布

MMddyhc

最新推荐文章于 2025-05-25 22:48:29 发布

阅读量4.1k

点赞数 5

分类专栏： Python 爬虫文章标签： python 爬虫

本文链接：https://blog.youkuaiyun.com/qq_41496127/article/details/109028189

版权

本文讲述了作者在更新Python爬虫以适应软科中国大学排名2020版网页变化的过程。通过getHTMLText、fillUnivList等方法获取和解析数据，并介绍了如何处理新页面结构、使用format函数对齐、去除多余空格以及写入Excel表格的问题。最后展示了爬虫的运行效果和成果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

复习爬虫时发现之前代码爬取的软科中国大学排名网站页面变了，原来的爬虫就不能再使用了，所以我对爬虫进行了更新，使之恢复可用状态，并增加了写入Excel表格部分

方法：
（1）页面获取方法：getHTMLText(url)
（2）页面解读方法：fillUnivList(ulist,html)
（3）效果打印方法：printUnivList(ulist,num)
（4）写入Excel方法：save(path,ulist)

参数解读：
（1）ulist——存储解读结果的列表
（2）html——方法（1）读取的html页面
（3）num——爬取效果展示的数量
（4）path——写入的Excel的路径

（2）原代码无法获取新网页学校名：
这是因为新页面的标签结构发生了一些变化，新页面的校名包裹在了a标签之内，父一级的td标签解读不到，老版网页包裹在div标签内就可以解读到
页面结构变化
所以我在原先代码的基础是又重新查询了一遍a标签，ulist的第二个元素相应作出更改
查询a标签

（3）新页面的标签内文本带有很长的空格，这个直接用strip()方法去掉即可，如上图

（5）关于写入Excel表：
目前只能使用 .xls 和 .csv 格式，.xlsx格式无法识别gbk编码，难受，小伙伴可以写入 .xls 再另存为成 .xlsx 格式，小伙伴如果有方法的话也可以在博客下留言哦

import requests
import re
import bs4
from bs4 import BeautifulSoup

def getHTMLText(url):
    try:
        r = requests.get(url,timeout = 30