一、基本架构
用到的库:requests、bs4(BeautifulSoup)
1.定向爬取中国大学排名网的网页信息
requests定向爬取网页信息
import bs4
import requests
from bs4 import BeautifulSoup
def getHTMLTEXT(url):
"""通过最好大学排名网站url获得网页Html信息"""
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print("网页信息爬取成功!")
return r.text
except:
print("爬取失败")
2.从爬取的html页面中提取出大学排名信息
关键操作:
(1)从html页面中发现大学的信息都包含在tbody标签中,
(2)tbody标签含有的子节点不一定都是bs4库中的Tag类型,用isinstance(a,b)区分一下 //a是否是b类型的一个实例化?
(3)将包含院校信息的tr标签(即名称为td的标签)存入列表tds