目录
1、需求
2、问题
3、解决的方案
3.1、第一种(时间减少30%)
3.2、第二种(时间减少30%–40%,并且可以处理大数据表,不会出现内存溢出)
1、需求:
Hive表有几个T数据包含了20万个Partition,目前使用 analyze table 的方式分析表的统计信息速度很慢
2、问题:
目前使用 ANALYZE TABLE database.table_name COMPUTE STATISTICS 的方式分析表的统计信息速度很慢
3、解决的方案:
3.1、第一种(时间减少30%):
hive的客户端进行hive的性能优化配置,以及analyze table加上参数NOSCAN
命令:ANALYZE TABLE database.table_name
COMPUTE STATISTICS NOSCAN;
优化及参数的参考文档以及解说如下:
https://cwiki.apache.org/confluence/display/Hive/StatsDev
https://community.h