爬虫小白入门实例 —— 爬取全国某天所有火车的运行时刻表

本文是Python爬虫初学者的实战案例,讲述了如何爬取全国某天所有火车运行时刻表。通过学习《Requests快速上手》和《PyQuery基本使用》,了解爬取和解析网页的基本流程。分享了实现任务的代码,并针对可能出现的问题提供了解决方案,帮助读者快速入门爬虫。

受好朋友的委托,帮忙爬取全国某天所有火车的运行时刻表。

在此之前没有用过爬虫,但是会用python,所以迅速学习了一下。

把自己的学习过程整理如下,爬虫小白可以通过下述内容快速入门。

任务描述:

爬取的站点:http://search.huochepiao.com/chaxun/resultc.asp?txtCheci=D2&cc.x=0&cc.y=0

希望能把当前运行的所有车次的时刻表,都导出到excel变成下面这样。

学习及爬取过程如下:

快速浏览了《Requests 快速上手》,链接如下:

http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

然后可以继续快速浏览《python爬虫之PyQuery的基本使用》,链接如下:

https://www.cnblogs.com/lei0213/p/7676254.html

第一个链接的目的是为了学习把网页内容爬到本地,第二个链接的内容是学习如何解析爬到本地的网页,进而从爬到的众多信息里提取挖掘出我们需要的信息。

所以总结一下,简单的爬虫就分为两个部分,第一是爬取网页到本地,第二是解析网页。

有了前面的基础知识,可以使用下面的代码来完成上面的爬取任务,读懂下面代码的内容,自己动手实践一下,那么简单的

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值