拉勾网爬虫招聘数据解读–大数据分析师要掌握的工具与语言
标签(空格分隔): 爬虫
随着大数据的发展,大数据分析师越来越成为企业青睐的对象。在数据大潮里,拥有数据,利用数据,商业化数据渐渐成了企业关注的焦点。
本人是一名伪数据分析师,伪算法工程师,还有,伪文艺工作者。一直在想,如何才能成为一名真正的,能上天入地的大数据分析师和诗词歌赋,琴棋书画信手拈来的文艺青年呢。在这个看脸的世界里,对于后者我放弃,那么对于前者我总结出以下几点:
(1)首先要会这些语言:
R或python———数据分析师必备语言
java————大数据分布式框架hadoop要用到的语言
scala————目前最火的内存计算框架spark所需要用到的语言
sql————非常非常基本的关系型数据库的语言,几乎每家企业都要用到
nosql———— 非关系型数据库的语言,比如列式存储的hbase,大数据框架里的重要成员
(2)然后,要熟悉大数据的主要框架:
有些公司在用HADOOP,所以你要会hadoop,hive,hue,ozzie,hbase,flume,sqoop,等等等
有些公司直接用spark了,所以你熟练使用spark的mllib,streaming,sql…
有些公司,两个都在用。。。。。。
(3)还然后,要具备以下数学技能:
概率论,统计学,线性代数,微积分….(大学的高数统统给我用起来)
掌握机器学习的各类算法和模型,分类,聚类,推荐,回归,关联,自然语言处理,图像处理等等等,不但会用代码实现,还要对原理分分钟熟透,否则在调参和优化的时候就不知所云了
(4)再然后,要有阅读能力:
中文文献阅读能力
英文文献阅读能力(这个是关键)
(5)接着然后,要有明锐的商业思维,能结合企业的需求洞察数据的商业价值….云云云云….大家懂的
那个,大家不要灰心,我前面说了,这是成为“上天入地”的大数据分析师的要求,而且是我自己意淫的,可做参考,但不是标案。