以下是我一个月速通大数据开发的学习路线,仅供参考,学完只是对大数据有一些基本了解,如果学历背景比较好的话,包装一下项目,背背八股文也能找到实习,目前刚学完,准备梳理一下知识,整理八股文准备实习。
1.Java
对Java的要求因岗位而异,有的岗位对Java要求不高,面试也很少问Java八股,因为一般都是写sql多,有的岗位对Java要求就比较高了,面试会问很多Java八股。
所有总得来说Java不是硬性要求,有Java基础当然最后,学过前后端更好,没有也没关系,按照你的时间来,你要是时间充裕的话,就好好把Java学一下,常见的Java八股都要会,或者至少都有印象;时间不充裕的话可以直接跳过,或者把基础的语法看一下,能够看懂代码即可,因为大数据很多框架基本都是Java开发的,避免不了要看Java代码。
这里附上Java学习链接,我刚开始看其他人的学习路线都说要先学Java,所以就去学了一下,但是后面基本上都没用上,代码不会你可以问chatgpt啊,所以赶时间的可以直接跳过这一步。
2.Linux命令
大数据集群服务器基本上都是Linux系统,所以Linux命令比不可少,这里也不需要大家系统学习(当然有最好),大家后面边用边学就行。
这里附上Linux场常见命令。
3.数据结构与算法
这个主要是针对大厂笔试题的,技术岗避免不了要机试,所以大家可以提前开始学,可以先从leedcode hot100刷起,至于语言选择自己擅长的就好Java/Python,数据结构与算法没学完也可以开始刷题了,边刷边学,一开始可能一道题要1个小时才能搞明白,后面刷多了就会好很多。
这里附上数据结构与算法Python版。
4.SQL
SQL是很重要一点,基本上实习进去就是sqlboy,面试官很看重sql能力,所以可以提前开始在leedcode上刷sql题了,因为我之前学过数据分析,sql写的还不错,看一下之前的题解基本就能写出来,大家没有sql基础的可能需要先学习一下。
这里附上SQL从入门到实战,这里主要是数据分析的mysql,,但是内容比较少能够让你快速上手写sql。
5.Hadoop
前面都是前戏,大家抽时间学一下就可以了,集中学习/刷题可以放到面试前,Hadoop这才是重点。
Hadoop就是大数据的基础框架,重重之中,大家好好学,面试很多大数据八股文就是从这里出的,学好了基本上Hadoop的八股文都有所了解,这里有一个小技巧,学的时候要挑重点学,那么什么是重点:去优快云、牛客上搜集一下面经,最常问的问题就是学习的重点了,其他的都可以快速略过。
这里附上Hadoop学习链接(学到P142即可,后面的生产调优源码解析可以以后慢慢学,当做知识的补充)。
6.Hive
把Hadoop的视频啃下来之后,感觉还是太费时间了,很多内容面试根本就不会问,所以后面学习我转变了策略,最快速度了解这些组件的架构,工作流程,对这些组件有大致的概念,知道怎么用就行了,后面根据面经再去进一步学习。
这里附上Hive速通视频(从P45开始学即可,前面部分与上面的Hadoop重复)。
到这里,基础知识我们已经学完了,花了两周时间,后面做项目又花了两周时间,刚好一个月。
7.离线数仓项目
学完前面这些我们就可以开始做离线数仓的项目了,还有一些组件像Flume,Kafka,Spark这些可以等到用到的时候再去学,而且不是系统性地学习,而是以项目为主,需要什么学什么,这也是以后科研、工作中要学会的能力,我后面也会发这些组件的学习笔记,大家可以看一下。
这里附上离线数仓项目,大家还是要一步一步跟着做,梳理框架和业务逻辑,在做的过程中就要想好简历上这个项目要这么写,会问哪些问题。
至此,一个月时间我们就算是入门大数据了,但是想要找的实习还需要再加把劲,包装简历、刷算法+SQL、背八股文,后面我也会总结一些面试常见题目分享出来(主要是暑期实习面经)。
By the way,单纯靠电商数仓项目找实习肯定是不太够的,但是有了这个项目基础,大家再学其他项目相信速度会快很多。