我们要爬取的网页对应网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html
我们要爬取的内容为该网页上的中国大学排名:
并将爬取到的内容以下面这种格式输出:
要达到上述目标,必须通过以下三个步骤:
(1)从网络上获取大学排名网页内容;
(2)提取网页内容中信息到合适的数据结构
(3)利用数据结果展示并输出结果
具体使用到的完整代码为:
import requests
from bs4 import BeautifulSoup
def gethtmltext(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding