卡方检验 Chi-square test

最新推荐文章于 2025-04-23 20:00:22 发布

原创最新推荐文章于 2025-04-23 20:00:22 发布 · 4k 阅读

0 ·

CC 4.0 BY-SA版权

Spark MLlib 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种统计学方法——卡方检验，并通过实战代码演示了如何使用Spark MLlib进行卡方检验，比较两组数据的实际值与期望值之间的偏离度。

卡方检验:**实际值**与**期望值**之间的**偏离度**，实际值与期望值之间的偏离程度决定卡方值的大小，卡方值越大，越偏离；卡方值越越小，越接近。若实际值与期望值完全相等，卡方值就为0。
实战代码：

package com.wp
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.stat.Statistics
import org.apache.spark.mllib.stat.test.ChiSqTestResult
import org.apache.spark.{SparkContext, SparkConf}

object ChisequreTest {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName(“0616”).setMaster(“local”);
val sc = new SparkContext(conf);
val v1 = Vectors.dense(42.0,6.0);
val v2 = Vectors.dense(42.0,8.0);
//求卡方值=>实际值与期望值之间的偏离度
/*
Chi squared test summary:
method: pearson 默认使用皮尔逊相关系数方法
degrees of freedom = 1 自由度
statistic = 0.4374999999999999 卡方值
pValue = 0.5083315735521454 概率
*/
val c1: ChiSqTestResult = Statistics.chiSqTest(v1,v2);
println(c1);
}
}
运行结果截图：
这里写图片描述