Hive表有几个T数据包含了20万个Partition,数据分析过程

针对Hive表包含20万个Partition且analyze table操作速度慢的问题,提出两种解决方案:1) 使用ANALYZE TABLE命令加NOSCAN参数,减少30%时间;2) 通过Python程序逐个处理Partition,可降低40%时间并避免内存溢出。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1、需求

2、问题

3、解决的方案

3.1、第一种(时间减少30%)
3.2、第二种(时间减少30%–40%,并且可以处理大数据表,不会出现内存溢出)


1、需求:

Hive表有几个T数据包含了20万个Partition,目前使用 analyze table 的方式分析表的统计信息速度很慢

2、问题:

目前使用 ANALYZE TABLE database.table_name COMPUTE STATISTICS 的方式分析表的统计信息速度很慢

3、解决的方案:

3.1、第一种(时间减少30%):

hive的客户端进行hive的性能优化配置,以及analyze table加上参数NOSCAN

命令:ANALYZE TABLE database.table_name COMPUTE STATISTICS NOSCAN;
优化及参数的参考文档以及解说如下:
https://cwiki.apache.org/confluence/display/Hive/StatsDev
https://community.h

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

辉哥大数据

你的鼓舞将是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值