
python爬虫
文章平均质量分 79
橘子女侠
投入现在就是对未来最大的回馈
展开
-
Python爬虫——中国大学排名定向爬虫
这是一个非常简单的项目,定向爬取中国大学的排名,这个项目采用了bs4和requests路线实现了中国大学排名定向爬虫,在示例代码中,并对中英文混排输出问题进行了优化,可以使输出的内容更加整齐。这个项目也是我作为初学者刚开始学习的项目,希望大家可以一起学习,相互探讨。1. 未采用函数的方式进行爬取这种方式比较容易理解,适合新手去学习,但一般只适用于简单,代码量比较少的项目。示例代码:...原创 2018-12-08 14:02:35 · 855 阅读 · 0 评论 -
12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接
12306车站信息的爬取是一个比较复杂的系统,爬取需要的信息不是很难,但是要将最终的结果做的完善和美观却不是那么容易。作为一个学习Python的新手,我想把练习和整理结合起来,希望大家可以相互交流和探讨。这个项目准备花如下几个部分完成:输入条件的判断,包括出发站,到达站,和出发的时间,获取车次信息的链接; 在上一步的基础上,获取输入出发站,到达站,和出发时间的车次信息; 将输出的结果美...原创 2018-12-19 14:07:15 · 3768 阅读 · 5 评论 -
12306车站信息爬取(4)——添加车票的票价信息
在前三篇文章的基础上:12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接12306车站信息爬取(2)——输入出发站,到达站和出发时间,获取车次信息的列表12306车站信息爬取(3)——使用prettytable模块和colorama模块使输出结果美化我们已经可以将车站的余票信息获取出来,但是还有一点不足,那就是车票的票价信息没有获取...原创 2019-01-25 18:07:26 · 3081 阅读 · 15 评论 -
12306车站信息爬取(2)——输入出发站,到达站和出发时间,获取车次信息的列表
在上一篇文章中,我们简单了解了 输入条件的判断,包括出发站,到达站,和出发的时间,获取车次信息的链接;12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接在这一篇文章中,主要涉及到的内容有:车次信息的爬取。在上一篇文章中,我们已经获取了车票信息的链接(就是下图的Request URL),针对获取的链接,我们进行分析针对上图,我们查...原创 2019-01-15 20:17:10 · 4836 阅读 · 6 评论 -
12306车站信息爬取(3)——使用prettytable模块和colorama模块使输出结果美化
在前两篇文章的基础上:12306车站信息爬取(1)——输入条件的判断,包括出发站,到达站,和出发时间,并获取车次信息的链接12306车站信息爬取(2)——输入出发站,到达站和出发时间,获取车次信息的列表我们已经获取了车次的列表信息,在接下来的这篇文章中,主要涉及到的内容有:使用prettytable模块和colorama模块使输出结果美化。(1)安装prettytable模块和co...原创 2019-01-15 21:45:26 · 2938 阅读 · 0 评论 -
Python爬虫——使用正则表达式爬取西安7天的天气预报,并使用prettytable模块输出
使用正则表达式爬取西安7天的天气预报这个爬虫的案例就是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更加深入的理解。1. 信息来源:天气网。 链接为:https://www.tianqi.com/xian/72. 解析需要爬取的信息:进入主页,我们可以看到如上图所示的信息,我们需要爬取的就是上图中的所有内容。我们在主页中点击右键——>查看网页源代码——...原创 2019-01-29 18:46:51 · 2032 阅读 · 0 评论 -
Python爬虫——使用正则表达式爬取一本喜欢的小说
使用正则表达式爬取一本喜欢的小说这个爬虫的案例是对正则表达式的运用,通过这个案例,我们可以对正则表达式有更深入的了解。1. 信息来源:努努书坊。爬取的小说:三国演义。链接为:https://www.kanunu8.com/files/old/2011/2447.html2. 解析需要爬取的信息:进入主页,我们可以看到如上图所示的信息,我们需要爬取的就是上图中的所有内容。即每...原创 2019-01-29 19:21:16 · 3940 阅读 · 3 评论 -
用Python多线程爬取图片并下载到本地
1、图片信息的来源彼岸桌面 网址为:http://www.netbian.com/2、分析网站(1)构造页面的url列表我们需要做的是爬取网站上给定页数的图片,所以,我们首先需要的就是观察各个页面链接之间的关系,进而构造出需要爬取页面的url列表。第一页的链接:http://www.netbian.com/第二页的链接:http://www.netbian.com...原创 2019-08-20 12:51:43 · 4964 阅读 · 2 评论