我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
我们要爬取的内容为该网页上的中国大学排名:

并将爬取到的内容以下面这种格式输出:

要达到上述目标,必须通过以下三个步骤:
(1)从网络上获取大学排名网页内容;
(2)提取网页内容中信息到合适的数据结构
(3)利用数据结果展示并输出结果
具体使用到的完整代码为:
import requests
from bs4 import BeautifulSoup
def gethtmltext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding

本文介绍了一个Python网络爬虫项目,用于抓取并解析http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html上的中国大学排名。内容包括获取网页数据、提取信息到数据结构以及展示结果的详细步骤。
最低0.47元/天 解锁文章
1391

被折叠的 条评论
为什么被折叠?



