python spark数据分析_spark常用功能：使用Spark计算数列统计值

最新推荐文章于 2024-05-30 12:42:32 发布

最新推荐文章于 2024-05-30 12:42:32 发布 · 621 阅读

·

0

·

文章标签：

#python spark数据分析

本文介绍了如何使用Spark SQL进行数据分析，包括通过Python读取Excel数据转化为DataFrame，然后展示了计算最大值、最小值、平均值、样本及总体标准差、中位数和四分位数的方法。通过示例代码详细解释了每个统计计算的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：

-- https://cloud.tencent.com/developer/article/1475487

先来回顾一下数据和对应的统计结果：

本文使用的是iris分类数据集，数据下载地址为：

下载后转换为xlsx格式的文件，数据如下：

对应的统计结果如下：

在介绍之前，我还是想先说明一点，这一篇只是想先带大家体验一把Spark SQL，相关更多关于原理相关的知识，咱们会在后面的文章中详细介绍。

1、数据导入

这里咱们通过读取Excel的方式读取出相应的数据，并得到一个DataFrame：

def createDFByCSV(spark:SparkSession) = {

val df = spark.sqlContext.read.format("com.databricks.spark.csv")

.option("header","true") //这里如果在csv第一行有属性的话，没有就是"false"

.option("inferSchema",true.toString)//这是自动推断属性列的数据类型。

.load("resources/iris.csv")

df.show()

}

结果如下：

2、使用Spark SQL计算统计值

2.1 最大值、最小值

使用Spark SQL统计最大值或者最小值，首先使用agg函数对数据进行聚合，这个函数一般配合group by使用，不使用group by的话就相当于对所有的数据进行聚合。

随后，直接使用max和min函数就可以，想要输出多个结果的话，中间用逗号分开，而使用as给聚合后的结果赋予一个列名，相当于sql中的as：

import spark.implicits._

df.agg(max($"feature1") as "max_feature1",

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。