最近有一个小的需求,对hive表中数据生成一个id,希望对于A列数据,相同的值由相同的ID,由于在sql中一直用row_number() 比较多,但是这个函数并不能满足这个需求,因此找到到了rank() 函数,同时还有dense_rank()函数。
这三者相同点是都可以根据指定列生成序号,区别在于:
- row_number() : 序号不会重复,即使值相同也会是不同的序号
- rank(): 相同值有相同序号,但是由于总数不变,序号可能不连续,会出现 1,1,3,3,5这种序号
- dense_rank(): 相同值有相同序号并且序号连续
文章介绍了在Hive中处理数据时,如何使用row_number(),rank()和dense_rank()这三个函数来为列生成序号。row_number()为每个行提供唯一的序号,即使值相同。rank()和dense_rank()在相同值时给出相同序号,但rank()可能产生非连续序号,而dense_rank()保证序号连续。
3171

被折叠的 条评论
为什么被折叠?



