Hive面试重点

啵啵玩转AI-BigData

已于 2024-08-22 19:52:43 修改

阅读量803

点赞数 4

分类专栏：大数据+AI常见面试题文章标签： hive hadoop 数据仓库

于 2024-03-20 19:59:29 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_41767872/article/details/136886978

版权

文章目录

1.简述hive读写文件机制
2. hive和传统数据库之间的区别
3.hive分区
- 3.1在hive中为什么要构建分区表？
- 3.2什么是内部表和外部表？
- 3.3内部表和外部表如何进行选择？
4.hive分桶表
- 4.1什么是分桶表？
- 4.2分桶表有什么作用呢?
- 4.3分桶和分区的区别？
5.表的连接
- 5.1大表和小表的连接
- 5.2中型表和大表
- 5.3大表和大表
6.拉链表实现流程*
7.Hive索引
- 7.1row group index(行组索引)
- 7.2bloom filter index(布隆过滤索引)
- 7.3 在生产中这些索引如何选择呢?
8.Hive的相关优化
- 8.1 hive的并行优化
- 8.2hive的小文件合并，有什么影响？
- 8.3 HDFS的副本数量
9. 数据倾斜优化
- 9.1 什么是数据倾斜呢?
- 9.2 数据倾斜会导致问题?
- 9.3 在执行什么SQL的时候, 会出现多个reduce的情况呢?
- 9.4 发生数据倾斜的情况
- 9.5 group by 数据倾斜
- 9.6 join的数据倾斜
- 9.7 如何感知有数据倾斜?
- 9.8关联优化器(共享shuffle)
10. Hive架构原理
11. 窗口函数
- 11.1 概述
- 11.2 常用窗口函数
12. Union 与 Union all 区别
13. mysql和Hivesql的区别(包括功能和语法上的区别)

1.简述hive读写文件机制

Hive 读写文件的机制主要涉及到数据的导入和导出，以及数据在 Hadoop 分布式文件系统（HDFS）中的存储和管理。

数据导入：
- Hive 可以从多种数据源导入数据，包括本地文件系统、HDFS、HBase、Amazon S3 等。
- 使用 HiveQL 的 LOAD DATA 命令可以将数据加载到 Hive 表中。该命令支持从本地文件系统或 HDFS 中加载数据，也可以加载数据到指定的分区中。
- Hive 还支持外部表（External Table），外部表的数据存储在指定的位置，可以是 HDFS 或其他文件系统，对外部表进行数据导入不会改变数据的存储位置。
数据存储：
- Hive 使用表来组织和管理数据，每个表对应一个目录，该目录下包含数据文件、元数据文件等。
- 表的数据存储在 HDFS 中，可以选择不同的存储格式，如文本文件、序列文件、Parquet 等。
- 如果表使用了分区，数据文件会按照分区的方式存储在对应的子目录中。
数据导出：
- 使用 HiveQL 的 INSERT INTO 命令可以将查询结果导出到本地文件系统或 HDFS 中。
- Hive 还支持将查询结果导出到其他数据源，如关系型数据库、HBase 等。

总的来说，Hive 通过将数据存储在 HDFS 中，并通过表来组织和管理数据，实现了对大规模数据的高效读写和查询。同时，Hive 还提供了丰富的数据导入导出功能，支持多种文件格式和数据源，满足了不同场景下的数据处理需求。

2. hive和传统数据库之间的区别

这些区别主要源于它们的设计目标、数据模型、查询语言、数据处理方式等方面。

设计目标：
- Hive 的设计目标是处理大规模的分布式数据，它是建立在 Hadoop 生态系统之上的工具，适用于大数据分析和处理。
- 传统数据库的设计目标是提供高性能的事务处理（OLTP），通常用于处理中小规模的结构化数据。
数据模型：
- Hive 使用基于文件的数据模型，将数据存储在 Hadoop 分布式文件系统（HDFS）中，支持多种文件格式，如文本、序列文件、Parquet 等。
- 传统数据库使用基于表格的数据模型，数据以行和列的形式组织存储，支持事务和索引等特性。
查询语言：
- Hive 使用 HiveQL，这是一种类似于 SQL 的查询语言，支持类似于 SQL 的语法和操作，但不同于传统数据库的 SQL，HiveQL 可以用于查询大规模数据。
- 传统数据库使用 SQL（结构化查询语言）作为查询语言，支持丰富的查询操作和数据操作功能。
数据处理方式：
- Hive 是基于批处理的，它适用于大规模数据的离线处理和分析，通常不适用于实时数据处理。
- 传统数据库通常是面向事务的，支持实时的交互式查询和事务处理。
性能：
- 传统数据库通常具有更好的性能和较低的延迟，特别适用于实时交互式查询和事务处理。
- Hive 适用于大规模数据的批处理和离线分析，性能通常较低，但可以处理大规模的数据集。

总的来说，Hive 适用于大数据分析和处理，而传统数据库适用于实时交互式查询和事务处理。

3.hive分区

3.1在hive中为什么要构建分区表？

分区表是指根据数据的某些列值将数据进行分组和组织的表结构。

例如，如果有一个销售数据表，可以根据日期列来创建分区表。在这种情况下，每个分区可能代表一个特定日期的销售数据。这样的分区表可以使得对销售数据进行按日期查询时更加高效，因为只需要扫描特定日期的分区，而不是整个表。

可以提高查询性能，方便管理和维护数据，并支持特定的分析和查询需求。

3.2什么是内部表和外部表？

在Hive中，内部表（Internal Table）和外部表（External Table）是两种不同的表类型，它们在数据存储和管理方式上有所不同。

内部表（Internal Table）：
- 内部表是由Hive直接管理的表，Hive对其数据和元数据进行管理和控制。
- 当你创建内部表时，Hive会在指定的存储位置（通常是HDFS上的某个目录）创建表的数据和元数据。
- 当删除内部表时，Hive会删除表的数据和元数据，包括存储在HDFS上的数据文件。
- 内部表的数据和元数据都由Hive管理，因此它们受Hive的完全控制。
外部表（External Table）：
- 外部表是在Hive中定义的表，但是其数据并不由Hive直接管理，而是由外部系统（如HDFS、S3等）管理。
- 当你创建外部表时，Hive只会在元数据中注册表的定义，而不会创建实际的数据文件。
- 当删除外部表时，Hive只会删除元数据，而不会删除实际的数据文件。
- 外部表的数据文件存储在外部系统中，Hive只负责访问和解析这些数据。

主要区别在于对数据的管理方式和对数据文件的处理。内部表由Hive完全管理，包括数据和元数据的管理，而外部表只由Hive管理元数据，数据文件由外部系统管理。选择使用内部表还是外部表通常取决于数据的生命周期和管理需求。

3.3内部表和外部表如何进行选择？

选择内部表还是外部表通常取决于以下因素：

数据管理需求： 如果数据由Hive完全管理，包括数据的生命周期和处理过程，那么选择内部表更为合适。这种情况适用于需要完全由Hive控制的数据，例如数据仅用于Hive的分析和处理，并且数据的生命周期受到Hive的管理。
数据共享和互操作性： 如果数据需要与其他系统或工具进行共享或交互，并且希望数据在Hive之外的系统中保持可见性和访问性，那么选择外部表更为合适。外部表可以使得数据在Hive和其他系统之间进行共享和互操作更为灵活。
数据保护和备份： 如果需要在删除表时保留数据文件以进行备份或恢复，那么选择外部表更为合适。外部表的数据文件由外部系统管理，删除表时不会删除数据文件，因此可以更方便地进行数据备份和恢复。
数据文件的存储位置： 如果数据文件已经存在于HDFS或其他外部系统中，并且希望直接利用这些数据文件而不进行复制或移动，那么选择外部表更为合适。外部表可以直接访问外部系统中的数据文件，而不需要将数据复制到Hive的存储位置。
性能和灵活性： 在某些情况下，内部表可能会提供更好的性能和更高的灵活性，因为Hive可以对内部表的数据和元数据进行更加细粒度的管理和优化。因此，在性能和灵活性对数据处理任务至关重要的情况下，可能更倾向于选择内部表。

综上所述，选择内部表还是外部表应该根据具体的需求和情况进行权衡和选择。内部表适用于需要完全由Hive管理的数据，而外部表适用于需要与其他系统进行共享或交互的数据，以及需要保留数据文件以进行备份或恢复的情况。

4.hive分桶表

4.1什么是分桶表？

在建表的时候, 指定按照那些字段执行分桶操作, 并可以设置需要分多少个桶, 当插入数据的时候, 执行MR的分区的操作, 将数据分散各个分区(hive分桶)中, 默认分发方案: hash 取模

4.2分桶表有什么作用呢?

进行数据采样
案例1: 在进行数据分析的时候, 一天需要编写N多条SQL, 但是每编写一条SQL后, 都需要对SQL做一个校验, 如果直接面对完整的数据集做校验, 会导致校验时间过长, 影响开发进度, 此时可以先采样出一部分数据
案例2: 在计算一些比率值,或者在计算相对指标的时候, 也会基于采样数据来计算相对指标
比如: 计算当前月的销售额相对上个月环比增长了百分之多少?
可以选择当前月和上个月抽取出百分之30的数据, 基于这个数据来计算
提升查询的效率(单表|多表)