import org.apache.spark.sql.functions._
data.groupBy("gender").agg(count($"age"),max($"age").as("maxAge"), avg($"age").as("avgAge")).show
+------+----------+------+------+
|gender|count(age)|maxAge|avgAge|
+------+----------+------+------+
|female| 5| 32.0| 29.0|
| male| 5| 57.0| 39.0|
+------+----------+------+------+
data.groupBy("gender").agg("age"->"count","age" -> "max", "age" -> "avg").show
+------+----------+--------+--------+
|gender|count(age)|max(age)|avg(age)|
+------+----------+--------+--------+
|female| 5| 32.0| 29.0|
| male| 5| 57.0| 39.0|
+------+----------+--------+--------+
Spark2 DataSet聚合操作
最新推荐文章于 2022-04-27 09:56:05 发布
使用 Spark SQL 对数据进行分组,并按性别聚合年龄数据,包括计数、最大值及平均值等统计信息。
1955

被折叠的 条评论
为什么被折叠?



