Python网络爬虫与信息提取实例：中国大学排名爬虫

最新推荐文章于 2022-05-08 09:13:45 发布

原创

最新推荐文章于 2022-05-08 09:13:45 发布 · 667 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了一个Python网络爬虫项目，用于抓取并解析http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html上的中国大学排名。内容包括获取网页数据、提取信息到数据结构以及展示结果的详细步骤。

我们要爬取的网页对应网址为：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
我们要爬取的内容为该网页上的中国大学排名：
在这里插入图片描述
并将爬取到的内容以下面这种格式输出：

要达到上述目标，必须通过以下三个步骤：
（1）从网络上获取大学排名网页内容；
（2）提取网页内容中信息到合适的数据结构
（3）利用数据结果展示并输出结果
具体使用到的完整代码为：

import requests
from bs4 import BeautifulSoup
def gethtmltext(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding