Hive性能调优
一 Hive性能调优工具 - EXPLAIN
- EXPLAIN:显示查询语句的执行计划,但不运行
- 语法
EXPLAIN [EXTENDED|DEPENDENCY|AUTHORIZATION] hive_query
- EXTENDED
- 提供执行计划关于操作的额外信息,比如文件路径
- DEPENDENCY
- 提供JSON格式输出,包括查询所依赖的表和分区列表
- AUTHORIZATION
- 列出所有需要授权的实体,包括查询的输入输出和授权失败
- 通过工具生成可视化执行计划

explain select * from employee_partition;

二 Hive性能调优工具 - ANALYZE
- ANALYZE:分析表数据,用于执行计划选择的参考
- 收集表的统计信息,如行数、最大值等
- 使用时调用该信息加速查询
- 语法
analyze table employee compute statistics;

analyze table employee_partition
partition(country="china",add="LiaoNing") compute statisti

本文介绍了Hive性能调优的各种工具和方法,包括EXPLAIN和ANALYZE工具的使用,以及分区表、桶表、索引和压缩算法等优化设计。还详细探讨了Job优化策略,例如本地模式、JVM重用、并行执行等,以及查询优化技巧。
最低0.47元/天 解锁文章
636

被折叠的 条评论
为什么被折叠?



