数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成 的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant )的数据集合,用于支持管理决策。
传统的数据库 很难 海量数据存储,处理不同类型的数据,计算和处理能力不足
2 hive工作原理
hive是基于Hadoop的一个数据仓库,他能够将hadoop里面hdfs结构化的数据文件映射为一张表(因此我们需要安装mysql数据库)。当我们写一个hive的sql时,hive中的sql解析器会将sql解析成mapreduce作业
hive的出现让开发变得简单,用sql可以完成mapreduce作业
hive在企业中常见的应用
hive的系统架构:
hive sql执行过程
* 当启动MapReduce程序时,Hive本身是不会生成MapReduce算法程序的
• 需要通过一个表示“Job执行计划”的XML文件驱动执行内置的、原生 的Mapper和Reducer模块
• Hive通过和JobTracker通信来初始化MapReduce任务,不必直接部署在 JobTracker所在的管理节点上执行
• 通常在大型集群上,会有专门的网关机来部署Hive工具。网关机的作用 主要是远程操作和管理节点上的JobTracker通信来执行任务
• 数据文件通常存储在HDFS上,HDFS由名称节点管理
hive-HA
hive的基本操作:
beeline可以用!connect jdbc:hive2://localhost:10000 用来连接hiveserver2启动的hive服务