Hive中使用Distinct踩到的坑
问题描述:
在使用Hive的过程中,用Distinct对重复数据进行过滤,得出了一个违背认知的结果,百思不得其解。
假设:test表中有100W数据,对test表按照a, b, c, d, e去重。
一、使用Distinct的SQL如下:
SQL1 :select count(distinct a, b, c, d, e) from test;
得出结果: 2W+。
根据数据特点第...
原创
2018-12-24 17:57:30 ·
3775 阅读 ·
0 评论