content
- Hive简介
- Hive工作原理
- Hive系统架构
- Hive HA
- Hive编程
Hive简介
▍初见
- Hive是一个构建于Hadoop顶层的数据仓库工具
- 某种程度上的用户编程接口——因为Hive本身不存储和处理数据
- Hive依赖分布式文件系统HDFS存储数据
- Hive依赖分布式并行计算模型MapReduce处理数据
- 定义了简单的类似SQL的查询语言——HiveSQL
- 需要把HiveQL语句转换成MapReduce任务运行
- Hive的特点非常适用于数据仓库
▍特点
- 采用批处理方式处理海量数据:仓库存储的多是静态数据(不会频繁变化+不需要快速响应),对静态数据的分析非常适合采用批处理方式
- 提供适合数据仓库操作的工具: