Hive的基本概述和架构原理

Hive数据仓库解析

最新推荐文章于 2025-09-23 16:47:43 发布

原创最新推荐文章于 2025-09-23 16:47:43 发布 · 269 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#Hive

大数据专栏收录该内容

5 篇文章

订阅专栏

什么是Hive？

Hive：由Facebook开源用于解决海量结构化日志的数据统计。Hive基于Hadoop来完成工作。
Hive是基于Hadoop的一个数据仓库工具（E抽取T转换L加载），可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
本质是：将HQL转化成MapReduce程序
1.Hive处理的数据存储在HDFS
2.Hive分析（翻译工作）数据底层的实现是MapReduce
3.执行程序运行在Yarn上
Hadoop=HDFS+MR+Yarn;
综上所述，可以认为Hive这个软件工具是Hadoop的一个客户端

Hive有什么优缺点？

优点
1.操作接口采用的类SQL语法，提供快速开发的能力（简单、容易上手）。
2.避免了去写MapReduce，减少了开发人员的学习成本。
3.Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。
4.Hive的优势在于处理大数据，对小数据处理没有优势，因为hive的执行延迟比较高。
5.Hive支持自定义函数，用户可以根据自己的需求来实现自己的函数。
缺点
1.HQL表达能力有限
（1）迭代式算法无法表达
（2）数据挖掘方面都不擅长
2.hive效率比较低
（1）Hive自动生成的MapReduce作业，通常情况下不够智能化
（2）Hive调优比较困难，粒度较粗

Hive架构原理

在这里插入图片描述
1.用户接口：Client
CLI（hive shell）、JDBC/ODBC(开放数据库连接Open Database Connectivity)【java访问hive】、WEBUI（浏览器访问hive）
2.元数据：Metastore
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等;
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
3.Hadoop
所有数据使用HDFS进行存储，使用MapReduce进行计算。
4.驱动器：Driver
（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr（antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。）；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。
（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。
（4）执行器（Execution）：把逻辑执行计划转化成可以运行的物理计划。对于Hive来说就是MR/Spark。
在这里插入图片描述
Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

关于Hive中数据更新

Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有数据都是在加载的时候确定好的。

与数据库的比较

1.数据库的数据需要经常修改，Hive中数据不建议修改
2.索引：Hive是没有索引的，Hive中需要访问数据中满足条件中的值时，需要**暴力扫描整个数据，因此访问延迟较高（决定了 Hive 不适合在线数据查询）。**由于MR的引入，可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive仍可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的数据的访问，数据库可以有很高的效率，较低的延迟。
3.执行引擎
Hive：大多数查询通过Hadoop提供的MR来实现。
数据库：有自己的执行引擎。innoDb引擎【mysql默认执行引擎】
4.扩展性
由于Hive是建立在hadoop之上的，因此Hive的可扩展性空间很大（和hadoop是一致的）
数据库因为ACID语义的严格限制，扩展行非常有限【事务管理，ACID是Atomic（原子性） Consistency（一致性）
Isolation（隔离性）
Durability（持久性）】
5.规模
Hive：很大规模
数据库：规模较小