Hive入门、语法、底层原理流程图讲解【小二讲堂】

hive

一、Hive入门

在这里插入图片描述

1.hive基础讲解

什么是hive

Hive是建立在hadoop之上的数据仓库的基础架构。它提供了一些工具,可以用来进行数据提取、转化、加载(ETL),这是一种储存、查询和分析储存在hadoop中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
支持创建索引,优化数据查询。
不同的储存类型,例如:纯文本文件、Hbase中的文件。
将原数据保存在关系型数据库中。
可以将数据储存在HDFS分布式文件系统中
内置大量的用户函数UDF来操作时间、字符串、和其他的数据挖掘工具、支持用户扩展UDF函数来完成内置函数无法完成的复杂操作。
类查询方式,将sql查询查询转为mapReduce的job,在hadoop集群上执行。

2.主要分为以下几部分:

  • 用户接口:
    用户接口主要分为:CLI、Clinet、WUI,其中最常用的是Cli命令行的模式,Cli启动的时候会启动一个Hive的副本,Client是hive的客户端,用户连接至Hive Server.在启动Client的时候,需要指出Hive server所在的节点。WUI是通过浏览器访问的方式访问Hive。

  • 元数据储存:
    Hive将元数据储存在数据库中,如MySql、derby。hive的元数据包括表的名字、表的列以及分区及其属性,表的属性包括是否是否外部表。表的数据所在的目录等。
    解释器、编译器、优化器、执行器
    解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划储存在HDFS中并随后由MapReduce执行。

  • Hadoop:
    hive的数据储存在HDFS中,大部分的查询由MR完成,(不包含*的查询,比如select * from talename)

  • hive数据仓库和数据库的区别:
    数据库中储存的数据可以对随意其进行增删改查操作
    数据库中储存的数据是随用户的操作而动态变化的
    数据库中的数据储存容量是有限的,当数据库中的数据过于庞大时,查询效率会下降。

    数据仓库中的数据存储的是静态的历史数据,我能只能对数据进行添加和查询操作。
    数据仓库的容量是很大的,数据仓库中的数据是基于HDFS的,而将数据的元数据储存在metastore中的,基于内存查询的,当client客户端进行查询数据时会很快将数据返回
    hive数据仓库会和hbase进行整合,hive将成为client的角色用于储存数据的元信息,hbase进行储存数据,hive基于内存的数据处理方式将有很快的效率。

二、hive执行的流程

在这里插入图片描述

  • 1).首先客户端利用Cli命令行的方式提交一个查询任务。
  • 2).Thrift server与Driver进行通信,并且将查询任务发送给Driver。
  • 3).Driver将查询的数据首先从MetaStore元数据仓库中查询,是否有包含用户查询的表名4等信息。如果没有,则Driver直接通过Thrift server向客户端回馈消息。
  • 4).如果查询到了对应的元数据,则Driver会将客户端提交的结构化查询语句进行编译、解释、优化,将HQL首先生成计划树。
  • 5).将对应的查询计划树再发送给Hadoop 转成相对应的MapReduce任务去执行。当然在这里不是对所有的HQL都会转成MR任务,比如select * from table 这种语句不会 转成MR任务,hive的Driver对其做了查询优化。
  • 6).最后hadoop将MR跑出来的结果发送给Driver,Driver通过Thrift server通信,发送给客户端。

1.MetaStore元数据持久化工具–Mysql Driver

一般MetaStore一般是由MYSQL或者Derby来承担,一般储存的是表名,列名,和表的一些属性,是否是外部表等。Derby数据库是Hive自带的Apache的一个数据库,一般用于测试。

  • 表是怎么产生的呢???
    在hive进行启动时,Driver会将HDFS分布式文件系统的数据映射成一张表,MetaStore将将储存的是表的元信息了。
    或者是用户在创建了一张表时,通过load方式将数据加载到对应的表中时,这时可以知道,表中是有数据了,而表中的数据会被持久化到HDFS中,在执行MR任务的时候,可以去对应的HIVE存储的文件汇总去看,会在对应的目录下有对应的数据文件信息。
    注:使用derby存储方式时,运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库

2.时间拉链表

在大量的数据面前,我们无法对特定时间的数据进行查询,或者查看某一个时间点的数据库中数据的变化,这些我们都是无法操作的,而引入时间拉链表,可以解决这些无法执行的操作,这里的时间拉链表相当于对数据进行操作时一段时间的“快照”,也可以理解为历史记录。

3.Hive beeline

首先启动hiveserver2
要在hadoop的core-site.xml添加属性:

hadoop.proxyuser.root.groups
hadoop.proxyuser.root.hosts

执行命令或者重启hadoop集群

bin/hdfs dfsadmin -fs hdfs://node01:8020 -refreshSuperUserGroupsConfiguration
bin/hdfs dfsadmin -fs hdfs://node02:8020 -refreshSuperUserGroupsConfiguration

Beeline要与hiveserver2配合使用
客户通过beeline两种方式连接到hive:

beeline -u jdbc:hive2://node:10000/default -n root
-默认用户名、密码不验证
beeline
!connect jdbc:hive2//<host>:<port>/<db> root 123	

4、Hive数据库设计中的拉链表、增量表、全量表

1.存量、流量、增量
1)存量:系统在某一点时所保存的所有数量
2)流量:某一个时间点上流入、流出系统的数量
3)增量:某一个时间段内,系统中数据量的变化
增量=输入量-输出量
4)本期期末储存量=上期期末存量+本期增量
2.拉链表
1)记录一个实物从开始当当前所有的状态变化
2)拉链表每次上报的是历史记录的最终状态,是记录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值