Hive与Impala数据仓库对比-优快云博客

本文链接：https://blog.youkuaiyun.com/TxyITxs/article/details/105439693

一.概念

1.1 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

1.2 体系结构
在这里插入图片描述

1.3 与传统数据库的区别

1.4 基于传统数据库的传统数据仓库面临的挑战

二.Hive 简介

2.1 基于hadoop的Hive数据仓库，水平扩展性好。

2.2 Hive提供类似SQL的查询语言HiveQL，通过其来执行具体的MapReduce任务，支持类似的SQL的接口，移植容易，是一个有效合理直观组织和使用的数据分析工具。

2.3 Hive 两方面特性

采用批处理方式处理海量数据。
- Hive会把HiveQL语言转化为MapReduce任务进行运行；
- 数据仓库存储的是静态数据，对静态数据分析适合采用批处理方式，不需要快速响应给出结果，而且数据本省不会频繁变化。
Hive提供了一系列对数据进行提取、转换、加载(ETL)的工具。
- 可以存储、查询和分析存储在hadoop中的大规模数据。
- 这些工具能够很好满足数据仓库各种应用场景。

2.4 Hive 与hadoop组件的关系

在这里插入图片描述

Hive 依赖于HDFS存储数据；
Hive 依赖于MapReduce处理数据；
Pig提供一种面向流式处理的语言Pig Latin(类似SQL)，通过Pig Latin脚本语言来执行数据仓库和数据处理等工作。与Hive类似，通过转化为MapReduce任务来执行。
Pig适合处理实时的交互信息，不适合海量的数据处理。
Pig 主要用于数据仓库的ETL环节；
Hive 主要用于数据仓库海量数据的批处理分析。
HBase 实时交互式查询的数据库产品，弥补HDFS的缺陷。
Hive 时延高，与Hbase互补；

2.5 Hive与传统数据库
在这里插入图片描述

2.6 Hive的应用
在这里插入图片描述

2.7 Hive 系统架构
在这里插入图片描述

Hive 对外访问接口
- CLI：一种命令行工具
- HWI：Hive web interface是Hive 的文本接口。
- JDBC和ODBC：开发数据库连接接口
- Thrift Server ：基于Thrift架构开发的接口，允许外界通过这个接口，实现对Hive 仓库的RPC调用。
驱动模块Driver
- 包含编译器、优化器、执行器：负责把HiveQL语句转换成一些列MapReduce作业；
元数据存储模块Metastore：是一个独立的关系型数据库；
- 通过MySQL数据库来存储Hive元数据。

在这里插入图片描述

2.8 Hive HA基本原理

三.SQL转换成MapReduce作业原理

3.1 Hive 不做具体的数据处理和存储，它把SQL语句转换成MapReduce作业。

3.2 基本原理

连接：MapReduce实现数据库表的连接
- 编写MapReduce处理逻辑
- Map处理逻辑输入关系数据库的表；
- 通过Map对它进行转换，生产键值对；
转化原理
- 说明
  - 当启动MapReduce 程序时，Hive 本身是不会生成MapReduce程序的；
  - 需要通过一个表示"Job 执行计划"的xml文件驱动执行内置的、原生的Mapper和MapReduce模块。
  - Hive 通过和JobTracker通信来初始化MapReduce任务，不必直接部署在JobTracker所在的管理节点上执行
  - 通常在大型集群上，会有专门的网关机来部署Hive 工具。
  - 数据文件通常存储在HDFS 上，HDFS 由名称节点管理。

四.Impala 简介

4.1 Impala 是可以实现实时性交互式查询分析的工具，弥补了Hive 的缺点。

在这里插入图片描述

4.2 Impala

4.3 系统架构
在这里插入图片描述

在这里插入图片描述

4.4 Impala 查询执行过程

在这里插入图片描述

4.5 Impala 与Hive 比较分析
在这里插入图片描述

不同点
- Hive 适合于长时间的批处理查询分析而Impala 适合于实时交互式SQL 查询。
- Impala 在遇到内存放不下数据时，不会利用外存所以Impala 目前处理查询时会受到一定的限制。
相同点
- Hive 与Impala 使用相同的存储数据池都支持数据存储与HDFS和HBase。
- Hive 和Impala 中对SQL 的解释处理比较相似都是通过词法分析生成执行计划。

Impala 的目的不在于替代现有的MapReduce工具，使HIve 和　Impala 的配合使用效果最佳，可以先使用HIve 进行数据转换处理之后再使用Impala 在　Hive 处理后的数据集上进行快速的数据分析。

五.Hive 基本操作

5.1 基本数据类型
在这里插入图片描述
5.2 相关操作