hive面试题

韩顺平的小迷弟

于 2024-01-27 21:27:21 发布

阅读量1.2k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：大数据面试题 # 大数据开发文章标签： hive hadoop 数据仓库

本文链接：https://blog.youkuaiyun.com/qq_41246557/article/details/135881567

0. 思维导图

在这里插入图片描述

我理解的，hive就是一款构建数据仓库的工具，它可以就结构化的数据映射为一张表，并且可以通过SQL语句进行查询分析。本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。

补充1：你可以说一下HQL转换为MR的任务流程吗？♥♥♥
- 首先客户端提交HQL以后，hive通过解析器将SQL转换成抽象语法树，然后通过编译器生成逻辑执行计划，再通过优化器进行优化，最后通过执行器转换为可以运行的物理计划，比如MapReduce/spark，然后提交到yarn上执行
- 详细来说：
  - 首先客户端提交SQL以后，hive利用Antlr框架对HQL完成词法语法解析，将HQL转换成抽象语法树
  - 然后遍历AST，将其转换成queryblock查询块，可以理解为最小的查询执行单元，比如where
  - 然后遍历查询块，将其转换为操作树，也就是逻辑执行计划。
  - 然后遍历优化器对操作树进行逻辑优化，源码中会遍历所有的优化方式，比如mapjoin，谓词下推等，来达到减少MapReduce Job，减少shuffle数据量的目的。
  - 最后通过执行器将逻辑执行计划转换为物理执行计划（MR到这就结束了）（spark还需要使用物理优化器对任务树进行物理优化），提交到hadoop集群运行。
补充2：你可以说一下hive的元数据保存再哪里吗？
- 默认是保存java自带的derby数据库，但是这有一个缺点：derby数据库不支持并发，也就是说不能同时两个客户端去操作derby数据库，因此通常情况下，都会配置一个mysql去存放元数据。

读取文件：
- 首先调用InputFormat（默认TextInputFormat）对文件进行逻辑切片，返回一条一条的kv键值对，然后调用SerDe（LazySimpleSerDe）的反序列化方法，将一条记录中的value根据分隔符切分为各个对应的字段。
写文件：
- 首先调用SerDe（默认LazySimpleSerDe）的序列化方法将对象序列化为字节序列，然后调用OutputFormat将数据写入HDFS文件中。

我认为主要有散点的区别：
- 数据量，hive支持大规模的数据计算，mysql支持的小一些
- 数据更新快不快，hive官方是不建议对数据进行修改的，因为非常的慢，这一点我也测试过，而mysql经常会进行数据修改，速度也挺快的。
- 查询快不快，hive大多数延迟都比较高，mysql会低一些，当然这也与数据规模有关，数据规模很大的时候，hive不一定比mysql慢。
为什么处理小表延迟比较高：
- 因为hive计算是通过MapReduce，而MapReduce是批处理，高延迟的。hive的优势在于处理大数据，对于处理小数据是没有优势的。

从建表语句来看，加上了external关键字修饰的就是就是外部表，没加的就是内部表。

我认为主要有两点的区别：
1. 内部表的数据由hive自身管理，外部表的数据由hdfs管理。
2. 删除内部表的时候，元数据和原始数据都会被删除，而删除外部表的时候仅仅会删除元数据，原始数据不会被删除。
使用场景：通常都会建外部表，因为一个表通常要多个人使用，以免删除了，还可以找到数据，保证了数据安全。
<