Hive-学习笔记

本文介绍了Apache Hive作为建立在Hadoop之上的数据仓库系统的基本概念、架构及数据模型。探讨了Hive如何通过HQL简化大数据处理流程,并对比了其与传统数据库如MySQL的应用场景区别。

Hive-学习笔记

1 Hive概述

  • 什么是Hive?

    • Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。
    • Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。Hive由Facebook实现并开源。
  • 为什么使用Hive?

    • 使用Hadoop MapReduce直接处理数据所面临的问题人员学习成本太高 需要掌握java语言

      MapReduce实现复杂查询逻辑开发难度太大

    • 使用Hive处理数据的好处 ,操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手),避免直接写MapReduce,减少开发人员的学习成本 ,支持自定义函数,功能扩展很方便,背靠Hadoop,擅长存储分析海量数据集

  • Hive 和 Hadoop 的关系

    • 从功能来说,数据仓库软件,至少需要具备下述两种能力:
      • 储存数据的能力
      • 分析数据的能力
    • Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述两种能力,而是借助Hadoop。
    • Hive 利用 HDFS储存数据,利用MapReduce查询分析数据
    • Hive的最大的魅力在于用户专注于编写HQL,Hive帮您转换成为MapReduce程序完成对数据的分析。

2.Hive架构、组件

  • Hive架构图
    在这里插入图片描述

  • Hive组件

    • 用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。
    • 元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。
    • Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器:完成
      HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。
    • 执行引擎:Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

3 Hive数据模型(Data Model)

  • 数据模型:用来描述数据、组织数据和对数据进行操作,是对现实世界数据特征的描述。Hive的数据模型类似于RDBMS库表结构,此外还有自己特有模型。

  • Hive中的数据可以在粒度级别上分为三类:Table 表、Partition分区、Bucket 分桶在这里插入图片描述

  • Databases

    • Hive作为一个数据仓库,在结构上积极向传统数据库看齐,也分数据库(Schema),每个数据库下面有各自的表组成。默认数据库default
    • Hive的数据都是存储在HDFS上的,默认有一个根目录,在hive-site.xml中,由参数hive.metastore.warehouse.dir指定。默认值为/user/hive/warehouse。
  • Tables

    • Hive表与关系数据库中的表相同。Hive中的表所对应的数据是存储在Hadoop的文件系统中,而表相关的元数据是存储在RDBMS中。
    • 在Hadoop中,数据通常驻留在HDFS中,尽管它可以驻留在任何Hadoop文件系统中,包括本地文件系统或S3。
    • Hive有两种类型的表
      • Managed Table 内部表、托管表
      • External Table 外部表
  • Partition

    • Partition分区是hive的一种优化手段表。分区是指根据分区列(例如“日期day”)的值将表划分为不同分区。这样可以更快地对指定分区数据进行查询。
    • 分区在存储层面上的表现是:table表目录下以子文件夹形式存在。
    • 一个文件夹表示一个分区,子文件夹命名标准:分区列=分区值
    • Hive支持分区下继续创建分区,所谓的多重分区,
  • Buckets

    • Bucket分桶表是hive的一种优化分段表。分桶是根据表中的字段的值,进过hash计算规则将数据划分指定的若干个小文件
    • 分桶规则:hashdunc(ID)%桶个数,余数相同的分到同一个文件
    • 分桶的好处是可以优化join查询和方便抽样查询。Bucket分桶表在hdfs中表现为同一个表目录下数据根据hash散列之后变成多个文件。在这里插入图片描述

4 Hive是要取代Mysql吗?

  • Hive虽然具有RDBMS数据库的外表,包括数据模型、SQL语法都十分相似,但应用场景却完全不同。**Hive只适合用来做海量数据的离线分析。**Hive的定位是数据仓库,面向分析的OLAP系统。
  • 因此时刻告诉自己,Hive不是大型数据库,也不是要取代Mysql承担业务数据处理。
  • 对比图在这里插入图片描述

6.什么是元数据?

  • MetaData
    • Metadata即元数据。元数据包含用Hive创建的database、table、表的位置、类型、属性、字段等顺序等元信息。元数据存储在关系型数据库中。如hive内置的Derby、或者第三方如MySQL等
  • MetaStore
    • Metastore即元数据服务。Metastore服务的作用是管理metadata元数据,对外暴露服务地址,让各种客户端通过连接metastore服务,由metastore再去连接MySQL数据库来存取元数据。
    • 有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可。某种程度上也保证了hive元数据的安全。在这里插入图片描述

6.MetaStore的三种安装部署模式

在这里插入图片描述

  • 内嵌模式

    • 内嵌模式(EmbeddedMetastore)是metastore默认部署模式。此种模式下,元数据存储在内置的Derby数据库,并且Derby数据库和metastore服务都嵌入在主HiveServer进程中,当启动HiveServer进程时,Derby和metastore都会启动。不需要额外起Metastore服务。
    • 但是一次只能支持一个活动用户,适用于测试体验,不适用于生产环境。在这里插入图片描述
  • 本地模式

    • 本地模式(Local Metastore)下,HiveMetastore服务与主HiveServer进程在同一进程中运行,但是存储元数据的数据库在单独的进程中运行,并且可以在单独的主机上。metastore服务将通过JDBC与metastore数据库进行通信。
    • 本地模式采用外部数据库来存储元数据,推荐使用MySQL。
    • hive根据hive.metastore.uris 参数值来判断,如果为空,则为本地模式
    • 缺点是:每启动一次hive服务,都内置启动了一个metastore在这里插入图片描述
  • 远程模式

    • 远程模式(Remote Metastore)下,Metastore服务在其自己的单独JVM上运行,而不在HiveServer的JVM中运行。如果其他进程希望与Metastore服务器通信,则可以使用Thrift Network API进行通信。
    • 在**生产环境中,建议用远程模式来配置Hive Metastore。**在这种情况下,其他依赖hive的软件都可以通过Metastore访问hive。由于还可以完全屏蔽数据库层,因此这也带来了更好的可管理性/安全性。
    • 远程模式下,需要配置hive.metastore.uris 参数来指定metastore服务运行的机器ip和端口,并且需要单独手动启动metastore服务在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值