collect_set去除重复元素;collect_list不去除重复元素
+------+-----------------------------------+------------------------------------+
|gender|concat_ws(,, collect_set(children))|concat_ws(,, collect_list(children))|
+------+-----------------------------------+------------------------------------+
|female| no,yes| no,yes,no,no,yes|
| male| no,yes| no,yes,no,yes,no|
+------+-----------------------------------+------------------------------------+

本文介绍了一种使用collect_set和collect_list方法处理数据集中的重复元素的技术。通过对比这两个方法,我们发现collect_set可以有效地去除重复项,而collect_list则保留所有出现过的元素,包括重复的。这种区别对于数据清理和汇总特别有用。
1654

被折叠的 条评论
为什么被折叠?



