1、Hadoop生态概况
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。具有可靠、高效、可伸缩的特点。
离线数据分析:采用传统的hive、tez、spark计算引擎,完成离线数据的多维度分析。
流式数据分析:采用storm、flink流式计算引擎完成实时报表,实时画像、实时预警等功能。
大数据监控:采用ambari作为hadoop统一运维、监控平台,实现部署、监控和运维的自动化。
Hadoop的核心是YARN,HDFS和Mapreduce:官方网站:Apache Hadoop
常用模块架构: