hive关于fetch.task优化

最新推荐文章于 2022-05-11 13:42:50 发布

难得糊涂_不解释

最新推荐文章于 2022-05-11 13:42:50 发布

阅读量768

点赞数

分类专栏： HIVE

本文链接：https://blog.youkuaiyun.com/qq_36470475/article/details/111604924

版权

HIVE 专栏收录该内容

14 篇文章

订阅专栏

hql默认是需要转成mapreduce任务去执行的，但是一些场景启动mapreduce，比较消耗资源而且时间很慢，所以hive对于查询做了优化，有些查询是可以不启动mapredce去执行的，即按照fetch task 的方式去执行，实际上就是单进程的文件处理，输出结果

在hive-site.xml中有三个fetch task相关的值，也可以在客户端直接执行 set …

hive.fetch.task.conversion
hive.fetch.task.conversion.threshold #在输入大小为多少以内的时候fetch task生效，默认1073741824 byte = 1G
hive.fetch.task.aggr #对于没有group by的聚合查询，比如select count(*) from tab，这种最终都会在一个reduce中执行，像这种查询，可以把这个置为true将将其转换为fetch task，这可能会节约一些时间。

hive.fetch.task.conversion
这个属性有三个可选的值：
none：关闭fetch task优化
minimal：只在select 、使用分区列过滤、带有limit的语句上进行优化
more：在minimal的基础上更加强大了，select不仅仅可以是，还可以单独选择几列，并且filter也不再局限于分区字段，同时支持虚拟列（别名）