目前学习的框架都是围绕Hadoop进行的,可以称之为Hadoop生态圈,目前学习了
Hadoop框架
hive框架
zookeeper框架
Kafka框架
HBase框架
Flume框架
Hadoop框架简介: Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。
它最新的版本是3.0版本,它与2.0相比主要是有部分优化。2.0与1.0相比就是一个框架的改动。
1.0只有HDFS和MapReduce,其中HDFS负责存储。MapReduce负责资源调度和计算。但是在2.0版本中,MapReduce只负责计算,资源调度则由yarn负责。
Hive框架简介
:
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,其本质就是将HQL(hive的自己的语言)转化成MapReduce程序,它处理的程序存储在HDFS上,其分析数据底层实现的是MapReduce,其执行程序运行在yarn上。
所以它只有SQLparser解析式、physicalPlan编译器、QueryOpatimizer优化器、Execution执行器。

解析器:将SQL字符串转换成抽象语法树AST
编译器:将AST编译生成逻辑执行计划
优化器:对逻辑执行计划进行优化
执行器:把逻辑执行计划转化成可以运行的物理计划。对于Hive来说就是MR/Spark
zookeeper:zooKeeper是一个分布式的开源协调服务,用于分布式应用程序。它公开了一组简单的原子操作,分布式应用程序可以构建这些原子操作,以实现更高级别的服务,以实现同步,配置维护以及组和命名。
kafka基础框架简介:Kafka是一个
分布式的基于
发布
/
订阅模式的
消息队列(Message Queue),主要应用于大数据实时处理领域。(传统使用)
Kafka是一个开源的
分布式事件流平台(event streaming platform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。(最新定位)
HBase:
HBase 是一个开源的、分布式的、版本化的 NoSQL 数据库(也即非关系型数据库),它利用 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)提供分布式数据存储。
Flume框架简介:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的
海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
