爬虫数据分析【旅游篇】


作者简介Introduction

挖数 腾讯数据产品经理 & 段子手

个人微信公号:washu66


往期回顾

99.9%的数据分析师,都做不到这些

Kindle里有一本刷了3遍的书,一直不舍得删,这本书的名字叫做《不去会死》,讲述一个普通日本上班族在经历了一场病痛之后,毅然抛下工作,去践行他儿时环游世界的梦想。

一人一车,接连穿越美洲、欧洲、非洲、中东,整场旅行耗时7年半。

有人问他得到了什么,他去的时候两手空空,回来的时候也空空两手,但是,他去过玛雅文明最早的遗迹 - 笛卡尔神殿,在清晨雾气浮沉的时候,登上塔尖,等待神秘的金字塔群在迷雾中一座座浮现;他曾经驾着独木舟,在加拿大的育空河里赏着极光钓着鲑鱼;他曾经驾着单薄的自行车,在非洲大陆,与大象、长颈鹿一同驰骋。

每次读这本书,都有一种冲破枷锁的冲动。

于是乎,我带着对旅游的向往,爬取了某旅游网站国内和国外不同城市地区的游记数据,目的在于洞察最受欢迎的旅游地区,以及不同地区随时间变化的游记数量。

国内共计爬取了46个旅游城市,从游记数量来看,有以下分布:


Top10 旅游城市分别是

如果你决定去北京旅游,想避开旺季的话要怎么做呢?

答案是避开7,8月,如果是杭州的话呢?
答案是避开3,4月。

爬取了 日本、泰国、蒙古、斯里兰卡、台湾、新加坡、香港、马来西亚、印度尼西亚、马尔代夫、越南、尼泊尔、韩国、印度 11个国家和地区的数据,游记数量有如下分布:

亚洲地区最受欢迎的旅游地区是 香港,第二名是 韩国,第三名是 泰国,第四名是 台湾,第五名是 日本。

而从近两年的数据看,韩国 已经取代 香港 成为亚洲第一受欢迎旅游地区。

从近半年来的数据看更明显,韩国 一骑绝尘,香港 跌到第三被 泰国 超过, 印尼 挤下 台湾 进入前5。

如果从节假日来看,今年五一劳动节,各个地方旅游的分布是

最多人去 印度尼西亚,看来炎炎夏日大多数人还是选择去海岛玩。

去年的国庆节呢?

国庆节,天气凉爽了许多,巴厘岛立刻被大多数人抛弃,韩国 成了大多数人的选择,不可忽视的是 台湾,很多人选择国庆节过去。

春节呢?

泰国 是春节最热门的旅游地区,不可忽视的是冲进Top5的 新加坡。



=THE END=



 往期精彩内容整理合集 

2017年R语言发展报告(国内)

R语言中文社区历史文章整理(作者篇)

R语言中文社区历史文章整理(类型篇)


公众号后台回复关键字即可学习

回复 R                  R语言快速入门及数据挖掘 
回复 Kaggle案例  Kaggle十大案例精讲(连载中)
回复 文本挖掘      手把手教你做文本挖掘
回复 可视化          R语言可视化在商务场景中的应用 
回复 大数据         大数据系列免费视频教程 
回复 量化投资      张丹教你如何用R语言量化投资 
回复 用户画像      京东大数据,揭秘用户画像
回复 数据挖掘     常用数据挖掘算法原理解释与应用
回复 机器学习     人工智能系列之机器学习与实践
回复 爬虫            R语言爬虫实战案例分享

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值