【hive】limit查询优化

最新推荐文章于 2024-11-27 18:25:16 发布

原创

最新推荐文章于 2024-11-27 18:25:16 发布 · 2.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hive

本文介绍了Hive中limit查询的优化方法，通过开启hive.limit.optimize.enable参数，配合hive.limit.row.max.size和hive.limit.optimize.file进行数据源抽样，以减少全量查询。然而，这种方式可能使某些有用数据未被抽中。优化还包括配置文件的调整，如hive-site.xml和hive-default.xml，以及命令行参数和HQL中的SET关键字设定。

limit不优化会全部查询后，再返回部分

优化后：对数据源抽样返回

开启优化参数：

hive.limit.optimize.enable=true //开启对数据源进行采样的功能

hive.limit.row.max.size=100000 //设置最小采样容量。默认10万

hive.limit.optimize.file=10 //可抽样的最大文件数。默认10个

缺点：可能输入中有用的数据永远都不会被抽样到。

（1）配置文件

Hive 的配置文件包括：

　　A.　用户自定义配置文件：$HIVE_CONF_DIR/hive-site.xml

　　B.　默认配置文件：$HIVE_CONF_DIR/hive-default.xml

用户自定义配置会覆盖默认配置。

另外，Hive 也会读入 Hadoop 的配置，因为 Hive 是作为 Hadoop 的客户端启动的，Hive 的配置会覆盖 Hadoop 的配置。

配置文件的设定对本机启动的所有 Hive 进程都有效。

<property>
    <name>hive.limit.optimize.enable</name>
    <value>true</value>
</property>

<property>
    <name>hive.limit.row.max.size</name>
    <value>100000</value>
</property>
 
<property>
 &