小记
到今天,终于把自己的项目上传到了GitHub(点我)上。
这一路过来,也算是经历了”风风雨雨”,不断的在解决问题与思考问题中度过。这其中还有工作上的一些压力和自己偶尔的偷懒,不过也总算是幸不辱命终于完成了一个初步的版本,虽然简陋但毕竟是自己的东西,也倍感欣慰。
项目中遇到的问题
- 遇到的第一个问题,应该就是招聘信息的获取,查了一些资料,最后还是决定使用Python写个脚本来进行爬取招聘信息,因为它语法简短易懂,并且第三方库也有很多是主流的爬虫语言之一。当然我也考虑过直接使用Java来写,但是还是想给自己一个小小的挑战,并且如果要使用Python,就必须从头开始学习。
- 遇到的第二个问题,是我的笔记本内存太低,不够支持三开2G内存的虚拟机,为此只能升级为16G内存
- 在考虑到底采取Hive、HBase或者两者结合使用时,为了看到效果,我分别做了,单独使用Hive、HBase和使用HBase与Hive结合这三个版本,并分别对比思考了他们的速度以及优缺点。最后决定采用两种结合的方法
- 因为使用了两者结合的方式,结果在创建表时出现了一个很奇特的错误,上网找了资料,都说是版本不匹配,差点就想去换版本解决了。但是皇天不负有心人最后发现了解决的办法,因此学会了重新编译源代码 = =
- 关于前台图形化展示分析结果所要采用的框架也是找了一番资料,最后还是觉得Echarts目前就够用了
待续…