hive 优化

本文介绍了Hive查询优化的相关技巧,包括如何通过调整表的大小顺序进行连接操作以提高效率,利用map-side join将小表放入内存提升性能,以及使用explain命令查看Hive的执行计划等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 在 join的时候,最好是 小表 + 大表,hive在链接的时候,会尝试把前面的行,放入缓存中

  2. 加入在查询中,有一张很小的表,可以使用map-side join 将小表完全放入内存中

  3. hive> explain select * from nginx_log where p_hour='2014071211' limit 2; 使用explain 查看 hive运行的解析和计划,查询语句是不会执行的,explain extended  会显示的更加详细

  4. 并行执行,limit 抽样 配置

  5. 合理的map 和reduce 数量,dfs-count 来判断,jvm 重用

  6. 索引可以增加 group by 的速度,动态分区


转载于:https://my.oschina.net/u/1388024/blog/299210

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值