Hive-框架讲解

H.S.T不想卷

已于 2022-08-23 18:05:09 修改

阅读量911

点赞数 2

分类专栏：大数据文章标签： hive hadoop 大数据

于 2022-08-23 18:02:33 首次发布

版权

12 篇文章

订阅专栏

一、Apache Hive 介绍

Hive是一款建立在Hadoop之上的开源数据仓库系统。
Hive可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。
Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。

在这里插入图片描述

接口	介绍
CLI	CLI(command line interface)为shell命令行，通过命令行访问。
JDBC/ODBC	Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互，类似于JDBC或ODBC协议。
WebGUI	WebGUI是通过浏览器访问Hive。

元数据（Metadata），描述数据的数据，主要是描述数据属性（property）的信息，用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。通常是存储在关系数据库如 mysql or derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性否为外部表等，表的数据所在目录等。
元数据服务（Metastore），Metastore服务的作用是管理metadata元数据，对外暴露服务地址，让各种客户端通
过连接metastore服务，由metastore再去连接MySQL数据库来存取元数据。