Hive 调优

eiffel_0311

于 2016-05-10 11:03:54 发布

阅读量7.5w

点赞数

分类专栏： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/eiffel_0311/article/details/51361528

版权

hive 专栏收录该内容

6 篇文章

订阅专栏

本文探讨了如何通过调整Hive配置、优化查询语法来提高查询效率，包括查看执行计划、调整limit参数、进入严格模式以及利用并行执行等功能。详细介绍了通过修改配置文件、使用特定语法优化查询过程，从而实现更高效的查询执行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 使用 explain 查看执行计划

explain extended select count(distinct(name)) from employees;

2. 调整limit 相关参数

一条查询语句如果有limit 限制，他也会扫描整个表

3. 严格模式

修改hive-site.xml

<property>

<name>hive.mapred.mode</name>

<value>strict</value>

<description>Deprecated; use hive.strict.checks.* settings instead.</description>

</property>

效果：

1.where 的谓词中必须包含分区字段

select * from employees where country = "CHINA"

2. 有order by 的时候必须加limit, order by 最后会在一个reducer 上执行，防止reducer 执行时间过长

select * from employees where country = "CHINA" order by name limit 3;

3. 限制笛卡尔集上使用where 过滤

4. 并行执行

hive 查询会被分成若干阶段： MapReduce阶段，抽样阶段，合并阶段， limit 阶段。hive 每次执行一个阶段，如果这些阶段并非完全依赖，这样可以并行执行

修改： hive-site.xml

<property>

<name>hive.exec.parallel</name>

<value>true</value>

<description>Whether to execute jobs in parallel</description>

</property>

5. 调整reducer 和 map 的个数

6. 若干常量用来调试定位异常数据位置，称为虚拟列

select INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK from employees where country = "CHINA" and name = 'John Doe';

INPUT__FILE__NAME, BLOCK__OFFSET__INSIDE__FILE, ROW__OFFSET__INSIDE__BLOCK 都是虚拟列。

博客等级

码龄16年

59
原创

36
点赞

74
收藏

29
粉丝

关注

私信

热门文章

分类专栏

elasticsearch 1篇
图解 4篇
clickhouse 1篇
spark 3篇
算法 1篇
code demo 3篇
docker 1篇
ruby 8篇
scala 9篇
linux 1篇
python
hive 6篇
postgres
flume 2篇
练习 17篇
爬虫 4篇
其他 1篇

展开全部收起

上一篇：: Hive 分区

下一篇：: hive streaming

最新评论

短网址简介
skey123123: zzdwz点cn的短网址，免费接口API生成。
IK 分词器空格支持
qq_42630566: 你好，这个第一张图截取的不完整啊！后面|后面是什么呢？然后我后面的没加分词分出来的还是不能完整保留带空格的术语词。
个人建站基本流程
前端宋: 关于腾讯云服务器选择，一看平台，再看配置，最后是机型，我看了网上这篇博文，很全，http://www.aliyunbc.com/newsinfo/1157113.html
redash on spark-thriftserver
面壁者-肖叮: host填什么？
个人建站基本流程
我是海贼王路飞啊: 博主辛苦了！但是这篇文章很多地方没讲清楚。比如说怎样进入命令行模式，怎样搭建数据库等。我摸索了很久，还是没能弄好。最终我还是使用腾讯云开源应用中心(https://app.cloud.tencent.com)，对我这样计算机知识不够丰富的比较友好。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。