大数据技术学习路径：从基础到实战-优快云博客

本文链接：https://blog.youkuaiyun.com/njzhuming/article/details/108936527

大数据技术学习要点

学习大数据技术的开始要学会搭建linux系统，安装jdk、hadoop等，然后要学会大数据的文件处理系统。hadoop的基础组件，要先学会搭建，然后才能在此基础上进一步地应用和开发，比如分布式文件处理中MapReduce的核心思想等。

具体可按照以下顺序进行：

第一阶段，以离线操作应用为主。

第二阶段，以实时开发为主。

scala的安装和基础语法的熟悉。scala是一种类似java的编程语言，可以与java和.NET互操作；可以从Scala中调用所有的Java类库，也可以从Java应用程序中调用Scala的代码。
Spark集群安装和应用。Spark 是为大规模数据处理而设计的快速通用计算引擎。Spark具有Hadoop MapReduce的优点；但Job中间输出结果可以保存在内存中，从而不再需要读写HDFS。Spark能更好地适用于数据挖掘与机器学习等。
Elasticsearch的安装和学习。Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。
Kafka。Kafka是一个分布式消息队列。
内存数据库。包括MemCached缓存技术、Redis高性能内存数据库等。
Flink和Storm。Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。Flume。Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务。