【大数据Hive】hive 表数据优化使用详解

置顶逆风飞翔的小叔

已于 2023-11-09 18:14:49 修改

阅读量7.3k

点赞数 80

分类专栏： hive入门到精通文章标签： hive表优化策略 hive表优化 hive表优化详解

于 2023-10-29 23:06:39 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/congge_study/article/details/129223657

版权

hive入门到精通专栏收录该内容

18 篇文章 ¥15.90 ¥99.00

订阅专栏

超级会员免费看

本文深入探讨了Hive的数据存储格式优化，包括TextFile、SequenceFile、Parquet和ORC，强调了Parquet和ORC在压缩和查询性能上的优势。此外，文章还详细介绍了Hive的数据压缩策略，如压缩算法对比和参数设置，以及如何避免小文件问题。通过ORC文件的Row Group Index和Bloom Filter Index，展示了如何进一步提升查询性能。最后，讨论了启用ORC矢量化查询以增强处理效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

二、hive 常用数据存储格式

2.1 文件格式-TextFile

2.1.1 操作演示

2.2 文件格式 - SequenceFile

2.2.1 操作演示

2.3 文件格式 -Parquet

2.3.1 Parquet简介

2.3.2 操作演示

2.4 文件格式-ORC

2.4.1 ORC介绍

2.4.2 操作演示

三、hive 存储数据压缩优化

3.1 数据压缩-概述

3.2 数据压缩的优缺点

3.2.1 压缩的优点

3.2.2 压缩的缺点

3.3 常用压缩格式和压缩算法

3.3.1 Hadoop中各种压缩算法性能对比

3.3.2 压缩参数设置

3.3 操作演示

3.3.1 设置压缩参数

3.3.2 创建表，指定为textfile格式

3.3.3 创建表，指定为orc格式

四、hive 存储优化

4.1 避免小文件生成

4.2 ORC文件索引

4.2.1 Row Group Index

4.2.2 核心参数设置

4.2.3 操作演示

4.2.4 Bloom Filter Index

4.2.5 操作演示

4.3 ORC矢量化查询

五、写在文末

一、前言

通过之前的学习了解到，hive本身并不存储数据，其数据存储的本质还是HDFS，所有的数据读写都基于HDFS的文件来实现，因此对于hive表数据的优化可以归结为对hdfs上面存储数据相关的优化，比如数据存储格式的选择等。

二、hive 常用数据存储格式

为了提高对HDFS文件读写的性能，Hive提供了多种文件存储格式：TextFile、SequenceFile、ORC、Parquet等，不同的文件存储格式具有不同的存储特点，有的可以降低存储空间，有的可以提高查询性能。

Hive的文件格式在建表时指定，默认是TextFile，在hive的建表语法树中，在 [STORED AS file_format] 这一项中可以进行指定；

了解本专栏

超级会员免费看

评论 155

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

逆风飞翔的小叔 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。