Apache Hive是一个基于Hadoop分布式文件系统、使用MapReduce算法执行大规模离线数据分析的数据仓库,本文主要描述Hive的安装部署。
如上所示,Hive总体应用架构图,其中,Hive基于HBase或者使用Hadoop分布式文件系统执行MapReduce的分布式计算
如上所示,Hive执行离线数据分析的总体流程图,其中,主要流程包括Hive解析SQL、Hive生成SQL的执行计划、Hadoop生成执行任务、Hadoop使用MapReduce分布式计算执行数据分析任务、Hive数据仓库的元数据信息存储在METASTORE中
MySQL Server Master |
192.168.0.130 |
MySQL Server Slave |
192.168.0.131 |