set hive.fetch.task.conversion含义

最新推荐文章于 2025-10-11 18:30:28 发布

转载最新推荐文章于 2025-10-11 18:30:28 发布 · 6k 阅读

hive 专栏收录该内容

29 篇文章

订阅专栏

本文介绍Hive中通过调整fetch.task.conversion配置项为minimal或more模式来优化查询性能的方法，这两种模式可以避免不必要的MapReduce任务启动，从而提高简单查询的速度。

我们在执行hive代码的时候，一条简单的命令大部分都会转换成为mr代码在后台执行，但是有时候我们仅仅只是想获取一部分数据而已，仅仅是获取数据，还需要转化成为mr去执行吗？那个也太浪费时间和内存啦，所以有一个hive的配置如下图所示：

我们会发现这个属性所对应着两种模式，minimal和more。

在minimal下，我们执行select * ，limit，filter在一个表所属的分区表上操作，这三种情况都会直接进行数据的拿去，也就是直接把数据从对应的表格拿出来，不用跑mr代码，这样会快点儿运行程序。

在more模式下，运行select，filter，limit，都是运行数据的fetch，不跑mr应用，所以感觉more模式会更好点儿。

具体的我们看看下面的演示：

[sql]view plain copy 
    
 set hive.fetch.task.conversion=minimal  //默认情况下是minimal  

[sql]view plain copy 
    
 select * from  emp  

[html]view plain copy 
    
 select  empno   from emp;//mr应用程序  

[sql]view plain copy 
    
 set hive.fetch.task.conversion=more  

[html]view plain copy 
    
 select  empno   from emp;//mr应用程序  

可以看到这种情况下。select的查询据变成了数据的fetch而不是mr应用。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

a280966503

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive之set参数大全-4

m0_49620121的博客

01-04

1368

FETCH。

hive大小文件合并

KANGBboy的博客

09-28

4557

hive -e “set tez.queue.name=usershell; 启用哪个队列 set hive.execution.engine=tez; 启用引擎 set hive.merge.tezfiles=true; 开启合并 set hive.merge.smallfiles.avgsize=16000000; 文件合并标准（低于16000000kb进行合并） set hive.merge.size.per.task=128000000;文件合并大小（最终文件大于128000000后，停止合并，合

参与评论您还未登录，请先登录后发表或查看评论

HIVE优化

m0_54357806的博客

04-19

652

hive中的一种模式,在该模式下禁止一些不好SQL的执行。

Hive调优策略总结

shuyv的博客

06-16

959

Hive调优策略

hive的一些优化配置

weixin_62206215的博客

10-11

991

以上三种参数设置方式优先级如下：会话参数设置>命令行参数设置>配置文件设置。

hive设置set hive.fetch.task.conversion

我是60岁程序员

10-17

3213

hive中如果是简单查询，没有函数，orderby等，语句会从hdfs直接查询不会转成mapreduce 这样要设置 set hive.fetch.task.conversion=more //默认是minimal，是查询都要经过mr的 ...

Hive的优化

weixin_48143996的博客

11-25

496

Hive的优化 1、Fetch的抓取当set hive.fetch.task.conversion=none;简单查询会转化为Mapreduce程序，查询较慢当set hive.fetch.task.conversion=more;简单查询不会转化为Mapreduce程序，查询较快 2、本地模式计算任务在提交任务的节点上（本地）执行，不会提交到yarn 在少量数据的前提下，开启本地模式，Mapreduce任务不提交到Yarn，任务不提交到Yarn，任务的执行省去了Yarn的调度时间，可以加快查询效率

Hive 调优总结...持续更新

半吊子Kyle的博客

06-21

1351

Hive 调优总结...持续更新Fetch抓取（Hive可以避免进行MapReduce）本地模式Join 优化Map 端 Join 优化（大表 Join 小表）空key过滤（大表 Join 大表）空key转换（大表 Join 大表）SQL 优化列裁剪分区裁剪GroupByCount(distinct)笛卡尔积动态分区调整优化动态分区参数设置案例分析数据倾斜优化Map 数据倾斜Reduce 数据倾斜并行执行优化严格模式JVM 重用推测执行存储方式和压缩方式 Fetch抓取（Hive可以避免进行MapReduc

Hive高级用法01-hive调优

小梁

07-24

2015

文章目录1. 查看执行计划 1.1 执行计划有什么用: 1.2 怎么查询执行计划 1.3 简单示例2.建表优化 2.1 建分区表 2.1.1 什么是分区表 &nbs

优化 hive.fetch.task.conversion

张伟的专栏

02-11

536

我们在执行hive代码的时候，一条简单的命令大部分都会转换成为mr代码在后台执行，但是有时候我们仅仅只是想获取一部分数据而已，仅仅是获取数据，还需要转化成为mr去执行吗？那个也太浪费时间和内存啦，所以有一个hive的配置如下图所示：我们会发现这个属性所对应着两种模式，minimal和more。在minimal下，我们执行select * ，limit...

启动MapReduce任务执行查询set hive.fetch.task.conversion = none

终码一生

08-21

529

执行hql之前，添加参数set hive.fetch.task.conversion = none;

hive关于fetch.task优化

qq_36470475的博客

12-24

824

hql默认是需要转成mapreduce任务去执行的，但是一些场景启动mapreduce，比较消耗资源而且时间很慢，所以hive对于查询做了优化，有些查询是可以不启动mapredce去执行的，即按照fetch task 的方式去执行，实际上就是单进程的文件处理，输出结果在hive-site.xml中有三个fetch task相关的值，也可以在客户端直接执行 set … hive.fetch.task.conversion hive.fetch.task.conversion.threshold #在输入大小

Hive Fetch.task

Simple 专栏

06-26

332

Fetch抓取是指，在 hive-default.xml.templaet 文件中，hive.fetch.task.conversion 属性。该属性在 Hive 中对某些情况的查询可以不使用 MapReduce 计算，而使用 fetch task 来执行。 <property> <name>hive.fetch.task.conversion</na...

《Hive用户指南》-HiveSQL转化为MapReduce任务

机器学习，大数据

04-08

2053

文章目录1. hive.fetch.task.conversion参数2. 转化为MR任务的SQL2.1 JOIN2.2 GROUP BY2.3 DISTINCTReference Hive是Facebook实现的一个开源的数据仓库工具—— Hive基于Hadoop实现，底层数据存放在HDFS中，计算（查询）使用MapReduce任务实现将结构化的数据文件映射为数据库表，并提供HQL查询功能，...

Hive快捷查询：不启用Mapreduce job启用Fetch task三种方式介绍

工作点滴

06-13

1260

问题导读：1.什么情况下，可以不启用MapReduce Job？2.方法1通过什么方式，不启用job?3.bin/hive --hiveconf hive.fetch.task.conversion=more的作用是什么？4.如果一直开启不使用MapReduce Job，该如何配置？如果你想查询某个表的某一列，Hive默认是会启用MapReduce Job来完成这个任务，如下：hive> SELE

Hive之参数设置

Leonlsf的博客

05-04

460

系统内置函数查看系统自带函数 show functions; 显示自带函数的用法 desc function upper; 详细显示自带函数的用法 desc function extended upper; Fetch抓取 1.hive.fetch task.conversion设置成more,如下查询语句不会执行mapreduce set hive.fetch task...

hive的调优（笔记四）

weixin_45747713的博客

07-29

841

hive的调优一、对执行语句进行调优1.开启本地模式，对语句执行时间进行优化2.测试fetch，对语句执行时间进行优化3.执行计划4.设置map任务数量5.设置reduce个数6.join原则7.小文件合并:8. jvm重用:9. 开启 mapjoin10.空值处理二、对文件存储格式进行调优1.hive文件存储格式1.textfile2.sequencefile3.refile4.orcfile5.parquet6.总结2.hive文件存储格式和压缩方式进行测试一、对执行语句进行调优 1.开启本地模式，

Hive(19):hive fetch task功能和配置

小蚯蚓的博客

11-10

474

1.目的有的hivesql语句跑mapreduce有的不跑mapreduce，这个设置的目的就是为了，尽量避免跑。 2.配置hive-site.xml <property> <name>hive.fetch.task.conversion</name> <value>more</value> <...

hive> select > floor(cast(col3 as bigint) / (1000 * 60 * 60)) as hour_range, > count(*) as record_count > from media_index > where col3 rlike '^[0-9]+$' -- 仅保留数字记录 > group by floor(cast(col3 as bigint) / (1000 * 60 * 60)); Query ID = ccd_20251214183915_362370c6-1398-4a55-b844-25275b2a71d8 Total jobs = 2 Launching Job 1 out of 2 Number of reduce tasks not specified. Defaulting to jobconf value of: 5 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number> In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number> In order to set a constant number of reducers: set mapreduce.job.reduces=<number> Job running in-process (local Hadoop) 2025-12-14 18:39:17,021 Stage-1 map = 0%, reduce = 0% Ended Job = job_local1836596976_0005 with errors Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched: Stage-Stage-1: HDFS Read: 0 HDFS Write: 0 FAIL Total MapReduce CPU Time Spent: 0 msec hive> -- 启用Fetch模式，统计待机记录（>5分钟=300000毫秒） hive> set hive.fetch.task.conversion=more; hive> select count(*) as standby_record_count > from media_index > where col3 rlike '^[0-9]+$' -- 过滤非数字异常值 > and cast(col3 as bigint) > 300000; Query ID = ccd_20251214183926_ee3f8b3f-69bd-4bd6-ba56-f39639222430 Total jobs = 1 Launching Job 1 out of 1 Number of reduce tasks determined at compile time: 1 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number> In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number> In order to set a constant number of reducers: set mapreduce.job.reduces=<number> Job running in-process (local Hadoop) 2025-12-14 18:39:27,726 Stage-1 map = 0%, reduce = 0% Ended Job = job_local1568795444_0006 with errors Error during job, obtaining debugging information... FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched: Stage-Stage-1: HDFS Read: 0 HDFS Write: 0 FAIL Total MapReduce CPU Time Spent: 0 msec