【Scala统计学系列】scala Spark breeze中Gamma伽马分布 ChiSquared卡方分布用途方法示例源码分析

原创

已于 2023-12-26 13:37:13 修改 · 456 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #分布式

于 2023-10-27 23:20:15 首次发布

Spark breeze中Gamma伽马分布 ChiSquared卡方分布 Gaussian高斯分布用途方法示例源码分析

用途

伽马分布在统计学和概率论中有广泛的应用。在Spark中，Gamma分布主要用于以下几个方面：

数据生成和模拟：通过使用Gamma分布生成符合特定形状和尺度参数的随机数，可以模拟各种类型的数据。这对于测试和验证数据处理流程以及算法的性能非常有用。
统计分析：Gamma分布在统计学中具有广泛的应用。使用Gamma分布可以对数据进行建模和估计，例如拟合观测数据、计算概率密度函数、计算累积分布函数等。Spark中的Gamma分布类提供了计算这些统计量的方法。
机器学习和数据挖掘：Gamma分布在一些机器学习和数据挖掘算法中起到重要作用，例如在概率图模型中表示变量之间的依赖关系，或者作为损失函数的一部分来优化模型参数。
随机采样和模型评估：在某些情况下，需要从给定的Gamma分布中采样数据，用于构建训练集、验证集或测试集。此外，使用Gamma分布生成的随机样本还可以用于评估模型的性能和鲁棒性。

总而言之，Spark中的Gamma分布类提供了方便的方法来处理和操作Gamma分布相关的数据和问题，无论是进行统计分析、模拟数据还是应用于机器学习和数据挖掘任务。

特例（卡方分布）

伽马分布与卡方分布的关系：

当卡方分布的自由度为正整数n时，它可以表示为一个形状参数为n/2、尺度参数为2的伽马分布。即：

卡方分布(X ~ χ²(n)) = 伽马分布(X ~ Γ(n/2, 2))

这意味着从伽马分布中采样得到的随机变量经过适当的标准化处理后可以得到卡方分布。具体而言，如果从伽马分布中采样得到的随机变量X，将其除以自由度n，即 X/n，则得到的结果符合自由度为n的卡方分布。注意：当自由度参数为整数时，卡方分布是伽马分布的特例。

在统计学中，卡方分布是一种特殊的伽马分布，它描述了自由度为正整数的独立标准正态随机变量的平方和。如果将一个服从自由度为n的卡方分布的随机变量X进行标准化处理，即将其除以n，那么得到的结果服从形状参数为n/2、尺度参数为2的伽马分布。

这个关系非常有用，因为卡方分布在统计推断和假设检验中经常出现。通过理解伽马分布和卡方分布之间的关系，可以更好地理解和应用卡方分布，并将其与其他概率分布进行比较和联系。

示例1-gamma

object GammaTest extends App{
   
   
  import breeze.stats.distributions.Gamma

  // 创建一个Gamma分布对象
  val gammaDist = Gamma(shape = 2.0, scale = 3.0)

  // 计算概率密度函数值
  val pdfValue = gammaDist.pdf(4.0)

  // 从Gamma分布中抽取值
  val drawValue = gammaDist.draw()

  // 计算均值
  val meanValue = gammaDist.mean

  // 计算方差
  val varianceValue = gammaDist.variance

  // 计算众数
  val modeValue = gammaDist.mode

  // 计算熵
  val entropyValue = gammaDist.entropy

  // 计算累积分布函数值
  val cdfValue = gammaDist.cdf(3.0)
}

请注意，上述代码示例仅为演示如何使用breeze库中的Gamma类创建和操作伽马分布。您需要确保已经正确导入breeze.stats.distributions.Gamma类，并根据自己的需求调整参数和方法的使用。

示例2-chi

在Spark中，可以使用breeze.stats.distributions.Gamma和breeze.stats.distributions.ChiSquared类来生成伽马分布和卡方分布，并计算其概率密度函数（PDF）的值。下面是一个简单的代码示例：

object chi2GammaTest extends App{
   
   
  import breeze.stats.distributions.{
   
   Gamma, ChiSquared}

  // 创建伽马分布对象
  val gammaDist = Gamma(shape = 2.0, scale = 3.0)

  // 创建卡方分布对象
  val chiSquareDist = ChiSquared(4)

  // 计算伽马分布和卡方分布的概率密度函数值
  val x = 2.5
  val gammaPdf = gammaDist.pdf(x)
  val chiSquarePdf = chiSquareDist.pdf(x)

  println(s"伽马分布的 PDF 值：$gammaPdf")
  println(s"卡方分布的 PDF 值：$chiSquarePdf")
//  伽马分布的 PDF 值：0.12072172458529948
//  卡方分布的 PDF 值：0.17906549803761884
}

示例3-gauss

package org.example.scala

import breeze.linalg.DenseVector
import breeze.stats.distributions.Gaussian

object GaussianDemo {
   
   
  def main(args: Array[String]): Unit = {
   
   
    val mean = 0.0 // 均值
    val stddev = 1.0 // 标准差

    val gaussian = new Gaussian(mean, stddev) // 创建高斯分布对象

    val x = DenseVector(-2.0, -1.0, 0.0, 1.0, 2.0) // 输入数据

    // 计算每个输入数据对应的高斯函数值
    val probabilities = x.map(gaussian.pdf)

    println("输入数据：")
    x.foreach(println)

    println("\n高斯函数值：")
    probabilities.foreach(println)
  }
}
//输入数据：
//-2.0
//-1.0
//0.0
//1.0
//2.0
//
//高斯函数值：
//0.053990966513188056
//0.24197072451914337
//0.3989422804014327
//0.24197072451914337
//0.053990966513188056

方法

pdf 计算概率密度函数值。

override def pdf(x: Double): Double

参数：

x：变量x

返回值：概率密度值

logDraw从伽马分布中抽取对数值。

def logDraw(): Double

返回值：对数值

draw 从伽马分布中抽取值。

def draw(): Double

返回值：值

mean 计算均值。

def mean: Double

返回值：均值

variance 计算方差。

def variance: Double

返回值：方差

mode计算众数。

def mode: Double

返回值：众数

entropy计算熵。

def entropy: Double

返回值：熵

probability计算概率。

override def probability(x: Double, y: Double): Double

参数：

x：变量x
y：变量y

返回值：概率值

inverseCdf计算反函数。

override def inverseCdf(p: Double): Double

参数：

p：概率值

返回值：反函数值

cdf计算累积分布函数值。

override def cdf(x: Double): Double

参数：

x：变量x

返回值：累积分布函数值

伴生对象

object Gamma extends ExponentialFamily[Gamma, Double] with ContinuousDistributionUFuncProvider[Double, Gamma]

伽马分布的伴生对象，提供了一些额外的方法和函数。

SufficientStatistic 伽马分布的充分统计量。

case class SufficientStatistic(n: Double, meanOfLogs: Double, mean: Double) extends BaseSuffStat[SufficientStatistic]

emptySufficientStatistic创建一个空的充分统计量。

最低0.47元/天解锁文章