多行转一行

本文介绍了Hive中的collect_list和collect_set函数,以及Doris中的array_agg函数,用于对表字段分组并合并其他字段,特别关注了去重和排序的特性。

Hive

        对表中某些字段分组,将其他字段合并。在Hive中通常可以使用collect_list()或collect_set()来实现,通常与concat_ws()函数连用
collect_list()----不去重
collect_set()----去重

语法

复制

collect_set(expr) [FILTER ( WHERE cond ) ]

还可以使用 OVER 子句将此函数作为窗口函数调用。

参数说明

  • expr:一个任意类型的表达式。
  • cond:一个可选的布尔表达式,可筛选用于聚合的行。

返回值说明

参数类型的 ARRAY。

数组中元素的顺序不确定。 排除 NULL 值。

示例

hive> select * from t;
+------+------+------+
| a    | name | pv   |
+------+------+------+
|   11 |      |   33 |
|    2 | NULL |  334 |
|    1 | fzh  |    3 |
|    1 | fff  |    4 |
|    1 | fff  |    5 |
+------+------+------+
hive> select a, concat_ws(',', collect_set(pv)) as collect_set_pv from t group by a;
+------+---------------+
| a    | collect_set_pv |
+------+---------------+
|   11 | [33]           |
|    2 | [334]          |
|    1 | [3,4,5]        |
+------+---------------+

Doris

        对表中某些字段分组,将其他字段合并。在Doris中通常可以使用array_agg()实现

语法

ARRAY_AGG(col [order by col0 [desc | asc] [nulls first | nulls last] ...])

参数说明

  • col:需要进行数值串联的列。支持的数据类型为 BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、LARGEINT、FLOAT、DOUBLE、VARCHAR、CHAR、DATETIME、DATE、ARRAY (3.1 及以后)、MAP (3.1 及以后)、STRUCT (3.1 及以后)。

  • col0: 排序列,决定 col 中元素的顺序。可以有多个排序列。

  • [desc | asc]: 对数组元素进行排序时,是基于 col0 的升序还是降序进行排列。默认升序。

  • [nulls first | nulls last]: null 值排在元素最前面还是最后面。

返回值说明

返回值的数据类型为 ARRAY。

注意事项

  • 如果不指定 ORDER BY,数组中元素的顺序是随机的,不能保证与原来列值的顺序相同。
  • 返回数组中元素的类型与 col 类型一致。
  • 如果没有满足条件的输入值,返回 NULL。

示例

mysql> select * from t;
+------+------+------+
| a    | name | pv   |
+------+------+------+
|   11 |      |   33 |
|    2 | NULL |  334 |
|    1 | fzh  |    3 |
|    1 | fff  |    4 |
|    1 | fff  |    5 |
+------+------+------+
mysql> select a, array_agg(pv) from t group by a;
+------+---------------+
| a    | array_agg(pv) |
+------+---------------+
|   11 | [33]          |
|    2 | [334]         |
|    1 | [3,4,5]       |
+------+---------------+

### Hive 多行一行的实现方法 在 Hive 中,`CONCAT_WS` 和 `COLLECT_LIST` 是两个常用的函数组合,用于将多行数据合并为一行。以下是详细的解释以及示例代码。 #### 使用 `CONCAT_WS` 和 `COLLECT_LIST` `COLLECT_LIST` 是一个聚合函数,它可以将分组后的每一组值收集到一个数组中。随后,`CONCAT_WS` 可以通过指定的分隔符将这个数组中的元素拼接成一个字符串。 以下是一个具体的例子,展示如何使用这两个函数将多行数据合并为一行: ```sql SELECT id, CONCAT_WS(',', COLLECT_LIST(value)) FROM table_name GROUP BY id; ``` 在这个查询中,`table_name` 是目标表的名字,`id` 是分组依据的字段名,而 `value` 是需要被拼接的字段名。该查询会根据 `id` 对记录进行分组,并将每组内的 `value` 字段按逗号 `,` 拼接起来形成一个新的字段[^1]。 #### 使用 `CONCAT_WS` 和 `COLLECT_SET` 如果希望在拼接前去掉重复的值,则可以使用 `COLLECT_SET` 替代 `COLLECT_LIST`。`COLLECT_SET` 同样会将分组后的每一组值收集到一个集合中,但是它会自动移除重复的值。 下面是使用 `COLLECT_SET` 的例子: ```sql SELECT id, CONCAT_WS(',', COLLECT_SET(value)) FROM table_name GROUP BY id; ``` 这段代码的功能与前面提到的类似,不同之处在于它只保留唯一的 `value` 值再将其拼接在一起[^2]。 #### 结合排序功能 有时候可能还需要对结果进行排序后再拼接。在这种情况下,可以结合 `SORT_ARRAY` 函数一起使用。例如: ```sql SELECT id, CONCAT_WS(',', SORT_ARRAY(COLLECT_SET(value), FALSE)) AS sorted_values FROM table_name GROUP BY id; ``` 这里的 `SORT_ARRAY` 函数会对收集到的集合或列表进行排序,其中第二个参数 `FALSE` 表示升序排列;如果是降序则应该传递 `TRUE`[^3]。 综上所述,这就是利用 Hive SQL多行数据压缩至单一记录的主要方式及其应用场景介绍。 ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值