Hive入门、语法、底层原理流程图讲解【小二讲堂】

最新推荐文章于 2025-10-24 22:26:01 发布

原创

最新推荐文章于 2025-10-24 22:26:01 发布 · 2.8k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hive架构原理 #hive语法讲解 #hive新手入门讲解 #hive优化 #大数据之hive全面讲解

Hive介绍

一、Hive入门
- 1.hive基础讲解
- - 什么是hive
  - 2.主要分为以下几部分：
二、hive执行的流程
三、HIve的分区、分桶
四、hive的授权管理
- - 三种授权模型：
  - 不进行登录hive进行查询数据
六、View视图
七、Hive优化

hive

一、Hive入门

在这里插入图片描述

1.hive基础讲解

什么是hive

Hive是建立在hadoop之上的数据仓库的基础架构。它提供了一些工具，可以用来进行数据提取、转化、加载（ETL）,这是一种储存、查询和分析储存在hadoop中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
支持创建索引，优化数据查询。
不同的储存类型，例如：纯文本文件、Hbase中的文件。
将原数据保存在关系型数据库中。
可以将数据储存在HDFS分布式文件系统中
内置大量的用户函数UDF来操作时间、字符串、和其他的数据挖掘工具、支持用户扩展UDF函数来完成内置函数无法完成的复杂操作。
类查询方式，将sql查询查询转为mapReduce的job，在hadoop集群上执行。

2.主要分为以下几部分：

用户接口：
用户接口主要分为：CLI、Clinet、WUI，其中最常用的是Cli命令行的模式，Cli启动的时候会启动一个Hive的副本，Client是hive的客户端，用户连接至Hive Server.在启动Client的时候，需要指出Hive server所在的节点。WUI是通过浏览器访问的方式访问Hive。
元数据储存：
Hive将元数据储存在数据库中，如MySql、derby。hive的元数据包括表的名字、表的列以及分区及其属性，表的属性包括是否是否外部表。表的数据所在的目录等。
解释器、编译器、优化器、执行器
解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划储存在HDFS中并随后由MapReduce执行。
Hadoop:
hive的数据储存在HDFS中，大部分的查询由MR完成，（不包含*的查询，比如select * from talename）
hive数据仓库和数据库的区别：
数据库中储存的数据可以对随意其进行增删改查操作
数据库中储存的数据是随用户的操作而动态变化的
数据库中的数据储存容量是有限的，当数据库中的数据过于庞大时，查询效率会下降。

数据仓库中的数据存储的是静态的历史数据，我能只能对数据进行添加和查询操作。
数据仓库的容量是很大的，数据仓库中的数据是基于HDFS的，而将数据的元数据储存在metastore中的，基于内存查询的，当client客户端进行查询数据时会很快将数据返回
hive数据仓库会和hbase进行整合，hive将成为client的角色用于储存数据的元信息，hbase进行储存数据，hive基于内存的数据处理方式将有很快的效率。

二、hive执行的流程

在这里插入图片描述

1）.首先客户端利用Cli命令行的方式提交一个查询任务。
2）.Thrift server与Driver进行通信，并且将查询任务发送给Driver。
3）.Driver将查询的数据首先从MetaStore元数据仓库中查询，是否有包含用户查询的表名4等信息。如果没有，则Driver直接通过Thrift server向客户端回馈消息。
4）.如果查询到了对应的元数据，则Driver会将客户端提交的结构化查询语句进行编译、解释、优化，将HQL首先生成计划树。
5）.将对应的查询计划树再发送给Hadoop 转成相对应的MapReduce任务去执行。当然在这里不是对所有的HQL都会转成MR任务，比如select * from table 这种语句不会转成MR任务，hive的Driver对其做了查询优化。
6）.最后hadoop将MR跑出来的结果发送给Driver，Driver通过Thrift server通信，发送给客户端。

1.MetaStore元数据持久化工具–Mysql Driver

一般MetaStore一般是由MYSQL或者Derby来承担，一般储存的是表名，列名，和表的一些属性，是否是外部表等。Derby数据库是Hive自带的Apache的一个数据库，一般用于测试。

表是怎么产生的呢？？？
在hive进行启动时，Driver会将HDFS分布式文件系统的数据映射成一张表，MetaStore将将储存的是表的元信息了。
或者是用户在创建了一张表时，通过load方式将数据加载到对应的表中时，这时可以知道，表中是有数据了，而表中的数据会被持久化到HDFS中，在执行MR任务的时候，可以去对应的HIVE存储的文件汇总去看，会在对应的目录下有对应的数据文件信息。
注：使用derby存储方式时，运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库

2.时间拉链表

在大量的数据面前，我们无法对特定时间的数据进行查询，或者查看某一个时间点的数据库中数据的变化，这些我们都是无法操作的，而引入时间拉链表，可以解决这些无法执行的操作，这里的时间拉链表相当于对数据进行操作时一段时间的“快照”，也可以理解为历史记录。

3.Hive beeline

首先启动hiveserver2
要在hadoop的core-site.xml添加属性：

hadoop.proxyuser.root.groups
hadoop.proxyuser.root.hosts

执行命令或者重启hadoop集群

bin/hdfs dfsadmin -fs hdfs://node01:8020 -refreshSuperUserGroupsConfiguration
bin/hdfs dfsadmin -fs hdfs://node02:8020 -refreshSuperUserGroupsConfiguration

Beeline要与hiveserver2配合使用
客户通过beeline两种方式连接到hive:

beeline -u jdbc:hive2://node:10000/default -n root

-默认用户名、密码不验证
beeline
!connect jdbc:hive2//<host>:<port>/<db> root 123

4、Hive数据库设计中的拉链表、增量表、全量表

1.存量、流量、增量
1）存量:系统在某一点时所保存的所有数量
2）流量：某一个时间点上流入、流出系统的数量
3）增量：某一个时间段内，系统中数据量的变化
增量=输入量-输出量
4）本期期末储存量=上期期末存量+本期增量
2.拉链表
1）记录一个实物从开始当当前所有的状态变化
2）拉链表每次上报的是历史记录的最终状态，是记录在当前时刻的历史总