实现的功能:
爬取最好大学网http://www.zuihaodaxue.cn/zuihaodaxuepaiming2018.html软科中国最好大学2018排名,获取各高校的排名、名称
、省市、得分等字段,并将数据存入数据库
所用的库:
bs4、import requests、pymysql 可以自行安装
完整代码附于文末
1.getHTMLText(url):
传入要爬取网站的网址作为参数,通过request模块与网站交互,调用requests.get(url, timeout=30)方法获取网站源代码。
2.fillUnivList (uList, html):
传入一个空列表和网站源代码作为参数来填充该空列表,通过BeautifulSoup调用BeautifulSoup(html, "html.parser")方法来解析源代码,得到所需的标签值存入列表,函数返回填充后的列表。