大数据-数据仓库Hive

最新推荐文章于 2024-10-09 19:24:15 发布

chenbengang

最新推荐文章于 2024-10-09 19:24:15 发布

阅读量494

点赞数

分类专栏：大数据文章标签： hive hadoop

本文链接：https://blog.youkuaiyun.com/chenbengang/article/details/105905372

版权

大数据专栏收录该内容

5 篇文章

订阅专栏

数据仓库Hive

一、Hive简介

数据仓库：面向主题、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策。
在这里插入图片描述
传统数据仓库面临挑战：无法满足海量数据存储需求；无法有效处理不同类型数据；计算可处理能力不足。
Hive满足上述挑战，且Hive架构在底层的Hadoop核心组件基础之上。借助HDFS和MapReduce两个Hadoop核心组件。借助SQL语言的新的查询语言HiveQL。
Hive两大特性：批处理海量数据（数据仓库存储为静态，数据本身不会频繁变化。）；Hive提供了一系列的ETL的工具。
在这里插入图片描述
其中Pig完成ETL过程。处理过程交给Hive。HBase作为实时交互式查询工具，弥补hdfs缺陷。

Hive对外访问接口
CLI：命令行工具。
HWI：Hive的web接口。
JDBC和ODBC：开放数据库接口。
Thrift Server：实现对Hive的RPC调用。
Driver：包含编译器、优化器、执行器，将HiveQL语句转化为MapReduce作业。
元数据存储模块：元数据存储模块，一般元数据存储在关系型数据库或者mysql。
HiveHA：高可靠Hive，因为Hive不够稳定。设置多个Hive实例，使用HiveProxy与外界交互。黑名单Hive实例会被重启。

二、SQL转化为MapReduce作业

Hive本身不做数据处理和存储，Hive将SQL转化为MapReduce作业。

1.SQL转换为MapReduce作业基本原理

数据库连接操作的MapReduce实现：在这里插入图片描述
其中value中的1,2分别为User表，Order表的标记位。

2.Hive中将SQL转化为MapReduce作业的过程

在这里插入图片描述

三、Impala

1.Impala简介

Impala允许通过sql语句交互式实时查询PB级底层数据，
可以存储在hdfs或HBase中，
Impala运行依赖于Hive的元数据，设计参考Dremel系统，
直接通过分布式查询引擎交互查询，
Impala和Hive都是采用相同SQL语法的ODBC驱动和用户接口。

2.Impala系统架构

其中虚线框出为Impala的组件
在这里插入图片描述
impala包含三个组件：

impalad负责具体相关查询任务，包含查询计划器、查询协调器、查询执行器三个模块。与hdfs数据节点运行在同一节点上，就近处理数据。给其他impalad分配和收集其他impalad的执行的结果进行汇总。
state store负责元数据管理和状态信息维护，创建一个state store进程，负责收集分布在集群中各个impalad进程的资源信息用于查询调度。
CLI用户访问接口。给用户提供查询使用的命令行工具。同时提供Hue、JDBC及ODBC使用接口。

Impala特性：