Athena SQL报错：must be an aggregate expression or appear in GROUP BY clause

最新推荐文章于 2024-06-14 17:05:03 发布

原创最新推荐文章于 2024-06-14 17:05:03 发布 · 5.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#sql #数据库 #java #aws #大数据 #mysql

文章讨论了AthenaSQL在处理GROUPBY查询时与MySQL的不同，强调AthenaSQL要求SELECT中的字段要么是聚合函数，要么在GROUPBY中。这种严格性源于大数据查询的需求，防止冗余数据并确保结果明确。在Athena中，不指定GROUPBY所有字段会导致错误，而MySQL则默认选择分组内的第一条记录。此外，文章还概述了SQL查询的执行顺序和使用聚合函数的规则。

疑问：为什么Athena SQL要求select子句的字段一定是聚合函数或必须出现在group by中。

其实，我们并不能用平时在navicat、javaDao写的MySQL语句和Athena SQL相提并论。归根结底就是“Athena SQL一般是大数据查询，所以会严格。”

一、举例，如有下一张表和查询语句：

在这里插入图片描述

SELECT
	EVENTS,
	version
FROM
	system_memory_available
GROUP BY
	version

1、在navicat的查询结果：

在这里插入图片描述

2、而在Athena中，以上sql会报错，指出“events 一定得是一个聚合函数或者必须出现在GROUP BY子句中”

在Athena中修正后的sql：

SELECT
	EVENTS,
	version
FROM
	system_memory_available
GROUP BY
	version,
	EVENTS

相应执行结果（因为举例，所以结果截图使用navicat的）：
在这里插入图片描述

二、原因

其实我们本意是想按照version分组，但是表中version对应着两个events，那么group by version的时候它应该展示哪个evnets呢？
从上面各自的执行的结果知道，MySQL直接是顺序优先显示第一个，而Athena会要求你进一步去分组。
除了书写规范原因，另外一个是，select子句的字段要求出现在group by中可以减少查询结果行数，防止冗余数据。

三、也可以深入从执行角度去了解。

执行顺序：
from——>where——>group by——>select
要点：
1、使用聚合函数时，select子句中只能存在以下三种元素。
常数
聚合函数
聚合键
2、在GROUP BY子句中不能使用select子句中定义的列的别名。
由于group by子句的执行优先级高于select，因此如果在select中定义的列的别名，group by子句并不知道。
3、GROUP BY子句的结果是随机的。
4、WHERE子句中不能使用聚合函数，只有SELECT子句、HAVING子句和ORDER BY中才能使用聚合函数。