1、Spark MLlib Statistics统计
Spark Mllib 统计模块代码结构如下:
1.1 列统计汇总
计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。
//读取数据,转换成RDD[Vector]类型
val data_path = "/home/jb-huangmeiling/sample_stat.txt"
val data = sc.textFile(data_path).map(_.split("\t")).map(f => f.map(f => f.toDouble))
val data1 = data.map(f => Vectors.dense(f))
//计算每列最大值、最小值、平均值、方差值、L1范数、L2范数
val stat1 = Statistics.colStats(data1)
stat1.max
stat1.min
stat1.mean
stat1.variance
stat1.normL1

本文介绍了Spark MLlib的统计模块,包括列统计汇总(最大值、最小值、平均值、方差等)、相关系数(Pearson和Spearman)的计算,以及Pearson卡方检验的应用。通过实例展示了如何使用Spark进行这些统计分析。
最低0.47元/天 解锁文章
275

被折叠的 条评论
为什么被折叠?



