学习大数据需要的基础
Java SE:
大数据技术框架中90%都是用Java语言写的。
MySQL:
SQL
Linux:
大数据技术框架都是部署在Linux系统上
从拉钩招聘网中看需求
语言:Java、Python、Scala
系统:Linux
框架:Hadoop、Storm、Spark、Flink、HBase、Hive、Impala、ElasticSearch、Kafka、Flume、Scribe、mahout、ElasticSearch、mysql、mongodb、redis、Zookeeper、sqoop
需要学习什么
第一方面:大数据离线分析
Hadoop 2.x(Common、HDFS、MapReduce、Yarn):存储、分析
环境搭建
处理数据思想
Hive(数据库仓库):分析
通过SQL语句对数据进行操作,SQL和MySQL的SQL基本一样
协作框架:
Sqoop:桥梁(HDFS <–> RDBMS )
Flume:通过flume采集数据
调度框架azkaban:
Crontab(Linux自带)
Zookeeper:
分布式应用程序协调服务
HBASE数据库:
NOSQL数据库
redis
扩展前沿框架
Impala
游戏公司用的多,耗内存
用来做数据分析
ElasticSearch(ES)
检索的框架
相当于数据库,即可存储数据库,也可以检索数据
第二方面:大数据实时分析
Scala:OOP+FP
Spark Core、SQL、Streaming
Kafka:消息队列
前沿框架:Flink
第三方面:机器学习
Spark MLib
环境搭建
配置虚拟机
确保虚拟机的网段59,修改vMnet8适配器网段地址192.168.59.0
虚拟机配置约束规定
普通用户:xxx
主机名:xxx