Tez union all时,识别不到subdir,count(*)=0,以及分组,组内排序错误。

本文探讨了在使用Tez引擎进行数据处理时遇到的问题,包括分组排序错误和count(*)结果不一致。问题源于HDFS文件中的unionsubdir配置差异。建议避免依赖selectcount(*)检查数据,而应直接使用查询数据条数的方法,并尽量减少unionall操作。同时,正确配置识别subdir子文件夹是解决问题的关键。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

背景:Tez union all时,识别不到subdir,count(*)=0
现象1:分组,组内排序错误,不同引擎执行结果不同。
现象2:select 🌟 有数据,select count(🌟) 为0。而且偶尔 是0,偶尔不是0。所以可能有些节点的配置和其他节点不同导致的。
主要配置是,要不要识别sub dir子文件夹。
原因:Tez union all时,HDFS文件是有 union sub dir 1、2等等。不同配置设置,结果将会不同。
不要使用select count(✨)判断,而是使用select ✨ 判断数据条数是否为空,而且尽量不要做出union all的表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值