Hive概述（1）

最新推荐文章于 2024-12-14 22:08:48 发布

威威yw

最新推荐文章于 2024-12-14 22:08:48 发布

阅读量527

点赞数 1

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44849511/article/details/90300237

Hive是一个基于Hadoop的数据仓库工具，用于结构化数据的批处理查询。它包括元数据存储、解释器、编译器、优化器和执行器等组件，将HQL查询转化为MapReduce任务。Hive支持多种数据存储格式，并与Hadoop紧密集成，但相比RDBMS，它更适合批量数据统计分析，不适用于低延迟查询。Hive的元数据通常存储在MySQL中，以支持多用户并发访问。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

hive是什么？

元数据存储

解释器、编译器、优化器、执行器

Hive和Hadoop的关系

Hive和RDBMS对比

Hive的数据存储

1 数据存储格式

驱动（Driver）：编译器、优化器、执行器

Hive概述

hive是什么？

基于Hadoop、数据仓库、结构化、类SQL、MapReduce任务

2. 架构

metastore：元数据

基本组成（用户接口）

CLI：是一个和Hive通过命令行交互的接口。

thrift server（JDBC/ODBC）：提供了可以从不同编程语言编写的客户端访问Hive的接口，支持身份验证和多用户并发访问。

Web UIHive Web Interface）：Web接口，可以通过浏览器访问Hive。

元数据存储

1）元数据是什么？

存储在Hive中的数据的描述信息

2）有哪些？

表的名、表的列和分区以及属性（内部表和外部表）、表的数据所在目录

3）存在哪儿？

自带Derby。缺点：不适合多用户操作，并且数据存储目录不确定

4）解决方案

存在自己创建的MySQL中（本地或远程）

解释器、编译器、优化器、执行器

这四大组件完成 HQL 查询语句从词法分析、语法分析、编译、优化以及生成查询计划的生成。生成的查询计划存储在 HDFS 中，并随后由 MapReduce 调用执行

执行流程

HiveQL 通过命令行或者客户端提交，经过 Compiler 编译器，运用 MetaStore 中的元数据进行类型检测和语法分析，生成一个逻辑方案(logical plan)，然后通过的优化处理，产生一个 MapReduce 任务

Hive和Hadoop的关系

Hive 将 HQL 转换成 MapReduce 执行， Hive 依赖于 HDFS 存储数据

所以说 Hive 是基于 Hadoop 的一个数据仓库工具，实质就是一款基于 HDFS 的 MapReduce 计算框架

Hive和RDBMS对比

Hive 具有 SQL 数据库的外表，但应用场景完全不同， Hive 只适合用来做批量海量数据统计分析，也就是数据仓库

Hive的数据存储

1 数据存储格式

可支持 TextFile、SequenceFile、 ParquetFile、RCFILE 等

2 解析数据

只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符

3 数据模型

db（数据库）

在 HDFS 中表现为${hive.metastore.warehouse.dir}目录下一个文件夹

table（表）

在 HDFS 中表现所属 db 目录下一个文件夹

external table(外部表)

与 table 类似，不过其数据存放位置可以在任意指定路径

partition（分区）

在 HDFS 中表现为 table 目录下的子目录

bucket（桶表）

在 hdfs 中表现为同一个表目录下根据 hash 散列之后的多个文件

HIve优缺点

优点：

Hive作为一个基于Hadoop的数据仓库工具，提供了简单的SQL查询功能，简化了MapReduce的编写操作，适用于大数据集的批处理作业，例如，网络日志分析。

缺点：

Hive的HQL表达能力有限，对于较复杂的运算HQL不易表达；另外，Hive具有高延迟性，不适合那些低延迟的应用，如：OLTP系统。它不提供实时的查询和基于行级的数据更新操作，

驱动（Driver）：编译器、优化器、执行器

用户提交SQL给HIve，由Driver负责解析SQL，在解析时会加载相关的元数据信息，生成执行计划，然后生成Job交给Hadoop运行，然后Driver将结果返回给用户。

编译器：

Hive的核心，负责SQL语句的语法、语义解析，生成查询计划。

1、语义解析器（ParseDriver），将查询字符串转换成解析树表达式；

2、语法解析器（SemanticAnalyzer），将解析树转换成基于语句块的内部查询表达式；

3、逻辑计划生成器（Logical Plan Generator），将内部查询表达式转换为逻辑计划，这些计划由逻辑操作树组成，操作符是Hive的最小处理单元，每个操作符处理代表一道HDFS操作或者是MR作业；

4、查询计划生成器（QueryPlan Generator），将逻辑计划转化成物理计划（MR Job）。

生成的查询计划存储在 HDFS 中，并在随后由 MapReduce 调用执行。

优化器：优化器是一个演化组件，当前它的规则是：列修剪，谓词下压。

执行器：编译器将操作树切分成一个Job链（DAG），执行器会顺序执行其中所有的Job；如果Task链不存在依赖关系，可以采用并发执行的方式进行Job的执行。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。