学爬虫的初衷便是为了爬机票信息,因为从小到大没坐过飞机,所以有着深深的怨念。掌握了一定的爬虫技巧后,尝试过爬去哪儿网和携程网的机票,均以失败告终,所幸在最后的一根稻草艺龙网上取得了想要的结果。
用Scrapy框架来完成这次任务。
首先,创建一个新的project:
scrapy startproject Airplane
可爬的信息有很多,如果你愿意,可以得到是否有餐食的信息,在items.py里列了出来。
import scrapy
class AirplaneItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
corpn = scrapy.Field() #航空公司
fltno = scrapy.Field() #航空公司编号
plane = scrapy.Field() #飞机型号
pk = scrapy.Field() #飞机大小
dportn = scrapy.Field() #出发机场
aportn = scrapy.Field() #到达机场
dtime = scrapy.Field() #出发时间
atime = scrapy.Field() #到达时间
meat = scrapy.Field() #是否有餐食
on = scrapy.Field() #历史准点率
minp = scrapy.Field() #该航班最低票价
tax = scrapy.Field() #民航基金
remainnum = scrapy.Field

本文介绍了如何使用Scrapy框架爬取艺龙网的机票信息。通过创建项目、定义items、设置pipelines和spiders,实现从指定URL获取并解析JSON数据,过滤出符合价格要求的机票,最终将结果保存为JSON文件。
最低0.47元/天 解锁文章
4581

被折叠的 条评论
为什么被折叠?



