Hive知识点总结

最新推荐文章于 2021-12-18 21:55:13 发布

wwwmgcom

最新推荐文章于 2021-12-18 21:55:13 发布

阅读量346

点赞数

文章标签： hive

本文链接：https://blog.youkuaiyun.com/wwwmgcom/article/details/104672243

版权

本文详细介绍了Hive，包括其数据仓库功能、数据倾斜问题及其避免方法、SQL语句调优、不同排序类型的区别、元数据、保存方式、表结构、抽样和数据类型。此外，讨论了Hive的文件存储格式、压缩格式、自定义函数，并对比了数仓和数据库的区别。最后，提出了Hive的查询优化技巧，如调整切片数、使用fetch抓取和行列过滤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Hive

什么是Hive？

Hive是一个Apache提供的数据仓库的软件使用类SQL（Hql）对分布式存储的数据进行读取以及管理，Hive是基于Hadoop来使用的。底层会将sql转换成hadoop的MR来进行操作，hive执行效率较低，一般我们用它来进行离线处理，hive只提供读取功能

Hive中的数据倾斜：

原因：1.key分布不均
2.业务数据本身的原因 3.建表考虑不周 4.某些sql语句本身就要倾斜
5.分组

如何避免hive的数据倾斜？

给key一个随机的值，打散key。

Hive参数调节。Hive.map.aggr = true。 Hive.groupby.skewindata = true。作用，有数据倾斜的时候进行负载均衡，当设定为true时底层会生成俩个MRjob，第一个MRjob中Map输出的结果会随机的分配到reduce中，每个reduce都是做部分聚合操作，这样做的目的是相同的groupbykey分到不同的reduce中，会达到负载均衡的效果。第二个MRjob是按照预处理的结果按照group by key分布到reduce中（确保分到相同的key分到一个reduce中）最后完成最终的聚合操作。

Sql语句的调优：①使用join key分布最均匀的表作为驱动表。②大小表join时候让难度较小的表先进内存。③打表join的时候把空值的key变成一个字符串加上一个随机数，把倾斜的数据分到不同的reduce，④count distinct大量相同特殊值。

Hive中的sort by、order by、cluster by、distribute
by的区别

Sort by不是全局排序，在数据进入reduce中提前完成时排序。

Order by会对输入做全局排序，因此只有一个reduce 如果有多个reduce无法保证全局排序，计算规模较大，会造成时会很长。

Cluster by 除了具有distribute by的功能还具有sort by的功能。

Distribute by 按照指定的字段对数据进行划分输出到不同的reduce。

Hive的流程：

Driver：在hive中进行调度

Compiler：将Sql转换成MR

Exec：和YARN进行交互

Hive中的元数据

表名，字段名，分区名都属于元数据Hive的元数据对应的数据库目前只支持MySQL和Derby，默认是Derby。需要手动将元数据转移到数据库