Hive的基本概述和架构原理

Hive数据仓库解析

什么是Hive?

Hive:由Facebook开源用于解决海量结构化日志的数据统计。Hive基于Hadoop来完成工作。
Hive是基于Hadoop的一个数据仓库工具(E抽取T转换L加载),可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。
本质是:将HQL转化成MapReduce程序
1.Hive处理的数据存储在HDFS
2.Hive分析(翻译工作)数据底层的实现是MapReduce
3.执行程序运行在Yarn上
Hadoop=HDFS+MR+Yarn;
综上所述,可以认为Hive这个软件工具是Hadoop的一个客户端

Hive有什么优缺点?

优点
1.操作接口采用的类SQL语法,提供快速开发的能力(简单、容易上手)。
2.避免了去写MapReduce,减少了开发人员的学习成本。
3.Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。
4.Hive的优势在于处理大数据,对小数据处理没有优势,因为hive的执行延迟比较高 。
5.Hive支持自定义函数,用户可以根据自己的需求来实现自己的函数。
缺点
1.HQL表达能力有限
(1)迭代式算法无法表达
(2)数据挖掘方面都不擅长
2.hive效率比较低
(1)Hive自动生成的MapReduce作业,通常情况下不够智能化
(2)Hive调优比较困难,粒度较粗

Hive架构原理

在这里插入图片描述
1.用户接口:Client
CLI(hive shell)、JDBC/ODBC(开放数据库连接Open Database Connectivity)【java访问hive】、WEBUI(浏览器访问hive)
2.元数据:Metastore
元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;
默认存储在自带的derby数据库中,推荐使用MySQL存储Metastore
3.Hadoop
所有数据使用HDFS进行存储,使用MapReduce进行计算。
4.驱动器:Driver
(1)解析器(SQL Parser):将SQL字符串转换成抽象语法树AST,这一步一般都用第三方工具库完成,比如antlr(antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。);对AST进行语法分析,比如表是否存在、字段是否存在、SQL语义是否有误。
(2)编译器(Physical Plan):将AST编译生成逻辑执行计划。
(3)优化器(Query Optimizer):对逻辑执行计划进行优化。
(4)执行器(Execution):把逻辑执行计划转化成可以运行的物理计划。对于Hive来说就是MR/Spark。
在这里插入图片描述
Hive通过给用户提供的一系列交互接口,接收到用户的指令(SQL),使用自己的Driver,结合元数据(MetaStore),将这些指令翻译成MapReduce,提交到Hadoop中执行,最后,将执行返回的结果输出到用户交互接口。

关于Hive中数据更新

Hive是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive中不建议对数据的改写,所有数据都是在加载的时候确定好的。

与数据库的比较

1.数据库的数据需要经常修改,Hive中数据不建议修改
2.索引:Hive是没有索引的,Hive中需要访问数据中满足条件中的值时,需要**暴力扫描整个数据,因此访问延迟较高(决定了 Hive 不适合在线数据查询)。**由于MR的引入,可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hive仍可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的数据的访问,数据库可以有很高的效率,较低的延迟。
3.执行引擎
Hive:大多数查询通过Hadoop提供的MR来实现。
数据库:有自己的执行引擎。innoDb引擎【mysql默认执行引擎】
4.扩展性
由于Hive是建立在hadoop之上的,因此Hive的可扩展性空间很大(和hadoop是一致的)
数据库因为ACID语义的严格限制,扩展行非常有限【事务管理,ACID是Atomic(原子性) Consistency(一致性)
Isolation(隔离性)
Durability(持久性)】
5.规模
Hive:很大规模
数据库:规模较小

### ### Hive 架构组成及工作原理概述 Hive 是构建在 Hadoop 之上的分布式数据仓库工具,其架构设计旨在支持大规模数据集的高效查询分析。Hive 的核心组件包括 **Metastore、Compiler、Executor** 等模块,这些模块协同工作,将类 SQL 查询语言(HiveQL)转换为底层执行引擎(如 MapReduce 或 Tez)可执行的任务[^1]。 #### Metastore Metastore 是 Hive 的元数据管理组件,负责存储管理表结构、分区信息、列类型等元数据。它通常使用关系型数据库(如 MySQL 或 PostgreSQL)作为后端存储,通过 Thrift 接口对外提供服务。这种设计使得多个 Hive 实例可以共享同一份元数据,从而实现统一的数据管理[^2]。 ```sql -- 示例:创建一个 Hive指定分区字段 CREATE TABLE sales_data ( order_id STRING, customer_name STRING, amount DOUBLE ) PARTITIONED BY (dt STRING); ``` #### Compiler Compiler 模块负责解析 HiveQL 查询语句,生成抽象语法树(AST),将其转换为逻辑计划。该逻辑计划随后会被进一步优化,例如谓词下推(Predicate Pushdown)、列裁剪(Column Pruning)等操作,以提升查询效率[^2]。 ```java // 示例:HiveQL 编译流程简化示意 HiveQL Query → Lexer/Parser → AST → Semantic Analyzer → Logical Plan → Optimizer → Physical Plan ``` #### Executor Executor 负责将优化后的物理计划提交到底层执行引擎(如 MapReduce、Tez 或 Spark)。在此过程中,Hive 会根据查询需求生成相应的 MapReduce Job 或 DAG 任务,调度其在集群中运行。最终结果由执行引擎返回给客户端[^3]。 ```bash # 示例:提交 Hive 查询命令 hive -e "SELECT COUNT(*) FROM sales_data WHERE dt='2024-05-01'"; ``` #### 工作流程概述 Hive 的工作流程主要包括以下几个阶段: 1. 用户提交 HiveQL 查询。 2. Compiler 解析查询语句生成逻辑计划。 3. 优化器对逻辑计划进行重写优化。 4. Executor 将优化后的计划转换为具体的执行任务(如 MapReduce Job)。 5. 执行引擎运行任务将结果返回给用户[^3]。 这种分层架构设计不仅提高了系统的可扩展性灵活性,还使得 Hive 可以无缝集成多种计算框架,适应不同的数据分析场景。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值