HIVE 数据仓库容量清理

半吊子Kyle

已于 2022-04-15 12:00:17 修改

阅读量2.8k

点赞数

分类专栏： Hive 文章标签： hive

于 2022-04-15 11:18:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/hell_oword/article/details/124188623

版权

本文介绍了针对Hive数据仓库的容量清理方法，包括清理无用数据（如临时表、中间表和ODS层的历史分区）、归档低访问频率的冷历史数据以减少文件数量，以及对未压缩文本表进行压缩处理以节省存储空间。通过这些策略，可以有效管理和优化数据仓库，延长硬件寿命。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HIVE 数据仓库容量清理的一般操作

本博客结合笔者公司，总结了一下一般的数据仓库容量清理手段，见识浅陋，如有大佬路过，欢迎指点

随着数据仓库数据量的不断上升，一些表的文件越来越大，HADOOP 集群需要不断的加机器，随着不断的拓展，我们会发现：优化和清理同样重要，优化和清理的尽头才是加机器

此时我们需要对HIVE的容量着手，开始考虑如何清理容量，一般有有一下几点：

清理无用数据

无用的数据很主观，需要对整个仓库的表进行梳理，主要针对以下这些表：

① 临时表

测试或者临时使用的表，这些表的数据一般是无用的

② 中间表

我们在计算过程中，可能会使用一些中间表，如果是分区表，我们就要考虑下，如果这个中间表的数据可以溯源重新计算出来，那么这样的数据可以清理。中间表应该制定规范，尽量少使用中间表，使用完及时清理。

③ ODS 层的表

ODS 层一般是贴源层，抽取业务数据库的数据。如果每天抽取的数据都是全量同时表为分区表，那么历史分区是可以清除的。

…

归档访问频率低的冷历史数据

在 HDFS 的设计中，文件系统中的文件数量直接影响 namenode 中的内存消耗。虽然对于小型集群来说通常不是问题，但当有大量文件时，单个机器上的内存使用可能会达到可访问内存的极限。在这种情况下，尽可能少的文件是有利的。

Hadoop 归档后的文件格式为 Har(一种存储格式) 文件，是一个单独的文件，可以直接访问，但是 HAR 文件并非是压缩的. 因此也不会节约存储空间

Hadoop Archives 是减少文件数量的一种手段，对于访问频率低的冷历史数据我们可以考虑归档方案。

① 归档历史分区

② 归档不常用的数据

③ 归档某个分区下小文件过多的问题

-- 归档后会生成 har 文件
set hive

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。