Doris 中聚合函数使用常见问题及解决方案

在使用 Doris 进行数据分析时,聚合函数是不可或缺的一部分。然而,由于 Doris 的特定优化和语法要求,有时会遇到一些常见的问题,导致查询无法正确执行或返回预期结果。本文将介绍一个常见的聚合函数使用问题,并提供解决方案。

问题描述
假设我们有一个业务场景,需要统计某个时间段内的订单数量,并且需要包含一些额外的统计信息,如超期订单和重办订单的数量。我们希望在查询结果中包含这些统计信息,并且确保这些统计信息不会被重复累加。

示例数据表结构
假设有两个表:orders 和 order_details。

orders 表存储订单的基本信息。

order_details 表存储订单的详细信息,包括订单状态和处理状态。

orders 表结构

字段名

类型

描述

order_id

bigint

订单ID

create_tim

datetime

创建时间

status

int

订单状态

order_details 表结构

段名

类型

描述

order_id

bigint

订单ID

detail_id

bigint

详情ID

process_state

int

处理状态

is_overdue

int

是否超期

is_renewal

int

是否重办

初始查询

我们希望统计某个时间段内的订单数量,并包含超期订单和重办订单的数量。初始查询如下:

 
SELECT 
    SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) AS order_cnt_supervised, 
    SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) AS order_cnt_not_supervised, 
    SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) AS order_cnt_should_supervised, 
    CONCAT(IFNULL(ROUND(SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) * 100.0 / (SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END)), 2), 0), '%') AS supv_rate, 
    CONCAT(IFNULL(ROUND(SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) * 100.0 / (SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END)), 2), 0), '%') AS not_supv_rate, 
    od.overdue_cnt AS order_cnt_overdue, 
    od.renewal_cnt AS order_cnt_renewal 
FROM orders o 
LEFT JOIN (
    SELECT 
        order_id, 
        SUM(CASE WHEN is_overdue = 1 THEN 1 ELSE 0 END) AS overdue_cnt, 
        SUM(CASE WHEN is_renewal = 1 THEN 1 ELSE 0 END) AS renewal_cnt 
    FROM order_details 
    GROUP BY order_id
) od ON o.order_id = od.order_id 
WHERE o.create_time BETWEEN '2023-01-01 00:00:00' AND '2023-01-31 23:59:59';

问题分析
上述查询在 MySQL 中可以正常执行,但在 Doris 中会报错。具体错误信息可能类似于:ERROR 1055 (42000): Expression #6 of SELECT list is not in GROUP BY clause and contains nonaggregated column 'od.overdue_cnt' which is not functionally dependent on columns in GROUP BY clause; this is incompatible with sql_mode=only_full_group_by

这个问题的原因是 Doris 对 GROUP BY 子句有更严格的要求。在 Doris 中,所有非聚合列都必须包含在 GROUP BY 子句中,或者所有列都必须是聚合函数的结果。

解决方案
为了解决这个问题,我们可以使用 MAX() 聚合函数来确保 overdue_cnt 和 renewal_cnt 只被使用一次,避免重复累加。

修改后的查询

SELECT 
    SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt) AS order_cnt_supervised, 
    SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) AS order_cnt_not_supervised, 
    SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt) AS order_cnt_should_supervised, 
    CONCAT(IFNULL(ROUND((SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt)) * 100.0 / (SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt)), 2), 0), '%') AS supv_rate, 
    CONCAT(IFNULL(ROUND(SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) * 100.0 / (SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt)), 2), 0), '%') AS not_supv_rate, 
    MAX(od.overdue_cnt) AS order_cnt_overdue, 
    MAX(od.renewal_cnt) AS order_cnt_renewal 
FROM orders o 
LEFT JOIN (
    SELECT 
        order_id, 
        SUM(CASE WHEN is_overdue = 1 THEN 1 ELSE 0 END) AS overdue_cnt, 
        SUM(CASE WHEN is_renewal = 1 THEN 1 ELSE 0 END) AS renewal_cnt 
    FROM order_details 
    GROUP BY order_id
) od ON o.order_id = od.order_id 
WHERE o.create_time BETWEEN '2023-01-01 00:00:00' AND '2023-01-31 23:59:59';

主要修改点
使用 MAX() 聚合函数:

MAX(od.overdue_cnt) AS order_cnt_overdue

MAX(od.renewal_cnt) AS order_cnt_renewal

这样可以确保 overdue_cnt 和 renewal_cnt 只被使用一次,避免重复累加。

确保所有列都是聚合函数的结果:
SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt) AS order_cnt_supervised

SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) AS order_cnt_not_supervised

SUM(CASE WHEN o.status = 1 THEN 1 ELSE 0 END) + SUM(CASE WHEN o.status = 0 THEN 1 ELSE 0 END) + MAX(od.overdue_cnt) + MAX(od.renewal_cnt) AS order_cnt_should_supervised

MAX(od.overdue_cnt) AS order_cnt_overdue

MAX(od.renewal_cnt) AS order_cnt_renewal

总结
在 Doris 中使用聚合函数时,需要注意以下几点:

数据类型匹配:确保过滤条件中的数据类型与表中的数据类型匹配。

聚合函数要求:确保所有非聚合列都包含在 GROUP BY 子句中,或者所有列都必须是聚合函数的结果。
使用 MAX() 聚合函数:在某些情况下,使用 MAX() 可以避免重复累加问题,同时保持数据的准确性。

<think>嗯,用户现在想在Doris里把数组转成字符串。我需要先回想一下Doris支持的函数。记得Doris是基于MySQL协议的,所以可能有一些类似的字符串函数。比如MySQL里有GROUP_CONCAT,但Doris可能也有类似的。不过用户提到的是数组转字符串,可能数组已经是存在的一个字段,比如类似ARRAY类型的数据。这时候可能需要用Doris的数组处理函数。比如,有没有像concat_ws这样的函数?比如,concat_ws可以将数组元素用分隔符连接起来。比如,如果有一个数组列,可以用concat_ws(',',array_col)来转换成逗号分隔的字符串。不过需要确认Doris是否支持这样的用法。记得在Doris中,处理数组的函数可能包括element_at、array_agg之类的,但转换数组为字符串可能需要用concat_ws或者类似的函数。 另外,用户提供的引用里提到了CONCAT_WS函数,可以指定分隔符连接字符串。所以可能用这个函数来处理数组中的元素。比如,如果数组是['a','b','c'],用concat_ws(',', `数组字段`)应该会得到'a,b,c'。但需要确认数组是否可以直接作为参数传入concat_ws,或者是否需要展开数组元素。比如,可能需要使用展开数组,然后聚合起来,不过这可能比较复杂。 或者,Doris是否有内置的数组转字符串函数?比如array_join,像其他数据库系统那样。例如,在Hive或Spark中有array_join函数,可以直接将数组转换为字符串。如果Doris支持类似函数的话,用户可以直接使用array_join(array_col, ',')。但不确定Doris是否支持这个函数,可能需要查阅文档。假设用户有一个数组字段,例如tags数组,想要转换为逗号分隔的字符串。可能的解决方案使用concat_ws函数,将数组元素作为参数展开。不过concat_ws的参数是多个字符串,而不是直接一个数组。这时候可能需要用数组展开的方式,比如使用LATERALVIEW explode之类的,但Doris可能不支持这样的操作。或者,Doris是否有处理数组的内置函数,比如将数组元素转换为行的函数,然后使用group_concat来合并?比如,对于每个数组,先展开成多行,再用group_concat聚合。但这样的话,可能需要用到窗口函数或者子查询,会比较麻烦。或者,是否存在其他方法,比如使用transform函数处理数组中的每个元素,然后连接起来?不过这可能也需要复杂的操作。 根据用户提供的引用,之前提到REVERSE函数和CONCAT_WS函数,这可能暗示Doris支持这些字符串函数。所以可能concat_ws可以与数组结合使用。例如,如果数组元素是字符串,可以直接用concat_ws(',', arr)来得到连接的字符串。需要确认Doris是否允许将数组作为参数传递给concat_ws函数。例如,假设有一个表test_table,其中有一个数组列arr_col,类型是ARRAY<VARCHAR>。查询语句可能是: SELECTCONCAT_WS(',', arr_col)AS strFROM test_table;如果这样可行的话,那用户的问题就解决了。但需要确认Doris是否允许这样使用。如果不行,可能需要将数组元素逐个取出,然后连接起来。例如,使用元素访问,比如arr_col[1],arr_col[2],但这对于动态长度的数组来说不可行。或者,使用Doris的数组处理函数,比如array_map或者lambda函数,将每个元素转为字符串,然后用concat_ws。但不确定Doris是否支持这些高阶函数。另外,用户可能没有提到数组的具体结构,比如是否是字符串数组,或者元素类型不同。假设数组元素已经是字符串,那么直接使用concat_ws应该可以。否则可能需要先转换元素类型。 总结可能的解决方案:1.使用concat_ws函数,直接将数组作为参数传入,例如:SELECTCONCAT_WS(',', `array_column`) ASstr;这可能是最简单的方法,但需要Doris支持。 2.如果数组元素需要处理,比如转换类型,可能需要先处理每个元素,再连接。3.如果数组无法直接传入concat_ws,可能需要使用其他方法,如将数组展开成多行,再聚合为字符串,使用group_concat。但这样可能需要子查询或者LATERAL JOIN,这在Doris中的支持情况需要确认。根据Doris的文档,例如,在Doris中,处理数组的常见操作包括使用数组函数,比如array_agg来将多行聚合成数组,但反过来可能需要使用concat_ws。例如,在Doris的文档中,是否有示例说明如何将数组转换为字符串? 假设用户的情况是有一个数组字段,想要转换为以逗号分隔的字符串。正确的函数可能是concat_ws,因为根据用户提供的引用,CONCAT_WS在Doris中可用,并且可以处理多个字符串参数。因此,如果数组的元素可以作为单独的参数传递给concat_ws,那么就能连接起来。但数组本身是否会被展开成多个参数呢? 例如,在MySQL中,如果有一个JSON数组,可能需要用JSON_TABLE来展开,但Doris中的数组类型是否可以直接被函数处理?在Doris中,如果有一个数组列arr_col,类型为ARRAY<STRING>,那么concat_ws(',',arr_col)是否有效?或者需要将数组展开为多个参数? 可能需要测试。例如,假设数组是['a','b', 'c'],使用concat_ws(',', arr_col)会得到'a,b,c'吗?如果这样可行的话,答案就是使用CONCAT_WS函数,并指定分隔符。例如:SELECT CONCAT_WS(',', `array_column`) ASjoined_strFROM table; 如果用户的问题中的数组是其他类型,比如INT数组,可能需要先转换为字符串,例如使用CAST函数:SELECT CONCAT_WS(',', ARRAY_MAP(`int_array`,x ->CAST(xAS STRING)))AS joined_str;但需要确认Doris是否支持ARRAY_MAP这样的函数。或者,使用element_at逐个取出元素,但这对于未知长度的数组来说不现实。因此,最可能的解决方案使用CONCAT_WS函数,并直接传入数组列作为参数,前提是Doris支持这种用法。如果用户测试过或者文档中有说明,那么这就是正确的答案。另外,用户可能需要处理NULL值,或者空数组的情况,这时候concat_ws的行为是怎样的?比如,如果数组是空的,concat_ws可能返回空字符串,或者NULL?需要根据函数的具体行为来处理。 综上,回答用户应该建议使用CONCAT_WS函数,并指定分隔符,将数组列作为参数传入。例如:SELECT CONCAT_WS(',', `array_field`) ASstring_resultFROM your_table;如果这样可行的话,用户的问题就解决了。如果不行,可能需要其他方法,但根据提供的引用,CONCAT_WS是可行的。</think>在Doris中将数组转换为字符串可以使用`CONCAT_WS()`函数结合数组展开操作实现。以下是具体方法: ### 方法说明 1. **使用`CONCAT_WS()`函数** `CONCAT_WS(separator, array)`可直接将数组元素按指定分隔符拼接为字符串。例如: ```sql SELECT CONCAT_WS(',', array_column) AS joined_string FROM table_name; ``` 输入数组`[1,2,3]`会输出`"1,2,3"`。此方法适用于字符串或可隐式转换的类型(如整型)[^1][^2]。 2. **处理多类型数组** 若数组元素包含非字符串类型(如日期、数值),需显式转换: ```sql SELECT CONCAT_WS('|', ARRAY_MAP(int_array, x -> CAST(x AS STRING))) FROM table_name; ``` 通过`ARRAY_MAP()`函数将元素转换为字符串后再拼接。 ### 示例场景 假设表`user_tags`包含用户ID和标签数组: ```sql SELECT user_id, CONCAT_WS('; ', tags) AS tag_list FROM user_tags; ``` 输出结果: ``` user_id | tag_list --------|--------- 1001 | sports; music; travel ``` ### 注意事项 - **空值处理**:`CONCAT_WS()`会自动忽略数组中的`NULL`值,但保留空字符串。 - **性能建议**:对大规模数组建议先过滤无效元素(如`NULL`)以减少计算量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值