limit不优化会全部查询后,再返回部分
优化后:对数据源抽样返回
开启优化参数:
hive.limit.optimize.enable=true //开启对数据源进行采样的功能
hive.limit.row.max.size=100000 //设置最小采样容量。默认10万
hive.limit.optimize.file=10 //可抽样的最大文件数。默认10个
缺点:可能输入中有用的数据永远都不会被抽样到。
(1)配置文件
Hive 的配置文件包括:
A. 用户自定义配置文件:$HIVE_CONF_DIR/hive-site.xml
B. 默认配置文件:$HIVE_CONF_DIR/hive-default.xml
用户自定义配置会覆盖默认配置。
另外,Hive 也会读入 Hadoop 的配置,因为 Hive 是作为 Hadoop 的客户端启动的,Hive 的配 置会覆盖 Hadoop 的配置。
配置文件的设定对本机启动的所有 Hive 进程都有效。
<property>
<name>hive.limit.optimize.enable</name>
<value>true</value>
</property>
<property>
<name>hive.limit.row.max.size</name>
<value>100000</value>
</property>
<property>
&

本文介绍了Hive中limit查询的优化方法,通过开启hive.limit.optimize.enable参数,配合hive.limit.row.max.size和hive.limit.optimize.file进行数据源抽样,以减少全量查询。然而,这种方式可能使某些有用数据未被抽中。优化还包括配置文件的调整,如hive-site.xml和hive-default.xml,以及命令行参数和HQL中的SET关键字设定。
最低0.47元/天 解锁文章
721

被折叠的 条评论
为什么被折叠?



