大数据技术学习要点
学习大数据技术的开始要学会搭建linux系统,安装jdk、hadoop等,然后要学会大数据的文件处理系统。hadoop的基础组件,要先学会搭建,然后才能在此基础上进一步地应用和开发,比如分布式文件处理中MapReduce的核心思想等。
具体可按照以下顺序进行:
第一阶段,以离线操作应用为主。
-
创建虚拟机,并安装linux操作系统,或者安装独立的linux操作系统,也可以购买云计算服务器进行搭建学习;
-
熟悉linux常用命令,包括文件编辑类、文件目录类和用户管理类等命令;
-
安装jdk和Hadoop。Hadoop是一个由Apache基金会所开发的分布式系统基础架构;
-
熟悉Hadoop文件系统常用操作命令;
-
熟悉MapReduce核心思想(用于大规模数据集的并行运算);
-
安装zookeeper(Hadoop和Hbase的重要组件,为分布式应用提供一致性服务),了解其工作原理;
-
了解hive(基于Hadoop数据仓库工具,用于数据提取、转化、加载)的架构及安装;
-
HBASE(高可靠性、高性能、面向列、可伸缩的分布式存储系统)的安装和部署。
第二阶段,以实时开发为主。
- scala的安装和基础语法的熟悉。scala是一种类似java的编程语言,可以与java和.NET互操作;可以从Scala中调用所有的Java类库,也可以从Java应用程序中调用Scala的代码。
- Spark集群安装和应用。Spark 是为大规模数据处理而设计的快速通用计算引擎。Spark具有Hadoop MapReduce的优点;但Job中间输出结果可以保存在内存中,从而不再需要读写HDFS。Spark能更好地适用于数据挖掘与机器学习等。
- Elasticsearch的安装和学习。Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。
- Kafka。Kafka是一个分布式消息队列。
- 内存数据库。包括MemCached缓存技术、Redis高性能内存数据库等。
- Flink和Storm。Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。Flume。Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务。
相关内容请关注百度app和公众号免费学习: