实例一:中国大学排名定向爬虫
网址.:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html


查看定向爬虫的可行性

每个大学以tr标签开始,每个大学的每项信息都以td标签开始。
判断定向爬虫的可行性:打开robots协议看是否有爬虫限制
http://www.zuihaodaxue.cn/robots.txt

并没有爬虫限制。
功能描述

程序结构设计


本文介绍了如何使用BeautifulSoup库进行定向爬虫,以获取中国大学排名数据。首先,验证了网站robots协议允许爬虫,并详细描述了程序结构设计,包括主函数框架和各子函数。接着,展示了爬取数据并格式化输出到控制台的过程,以及如何改进中文对齐问题。最后,提到将数据保存到Excel文件中,并提示需要注意将文本数字转换为数值格式。
网址.:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html



每个大学以tr标签开始,每个大学的每项信息都以td标签开始。
判断定向爬虫的可行性:打开robots协议看是否有爬虫限制
http://www.zuihaodaxue.cn/robots.txt

并没有爬虫限制。




被折叠的 条评论
为什么被折叠?