正态分布(高斯分布)相关概念

本文详细介绍了正态分布的概念、概率密度函数的计算、均值和标准差的作用,以及68-95-99.7规则的应用。还探讨了标准化过程(Z变换),并通过Python示例展示了如何计算概率密度和应用68-95-99.7规则。
该文章已生成可运行项目,

正态分布(高斯分布):

        正态分布,也称为高斯分布,是概率统计学中一种重要的概率分布,通常用于描述自然界中的许多现象。正态分布的特点是其钟形曲线,对称分布于均值周围。正态分布的曲线呈现出一个峰值,这个峰值对应于均值\mu,而分布的尾部则逐渐延伸开来。

正态分布的概率密度函数(Probability Density Function,PDF)可由以下公式表示:

        f(x) = \frac{1}{\sigma\sqrt{2\pi }}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}

其中:

  • f(x)是在x处的概率密度值。
  • \mu是分布的均值。
  • \sigma是分布的标准差。

概率密度值:        

        概率密度值概率密度函数(Probability Density Function,PDF)在某一特定点上的值。在连续型随机变量的概率分布中,概率密度函数描述了随机变量落在某个区间内的概率

        对于概率密度函数 f(x),在某一点 x 处的概率密度值 f(x) 并不直接给出事件发生的概率。相反,概率密度函数的性质是,概率在一点上没有直接的物理意义,而是通过对连续概率密度函数进行积分得到。具体来说,对于一个区间 [a,b]上的概率,可以通过概率密度函数在该区间上的积分来计算:

        P(a\leq X\leq b) = \int_{a}^{b}f(x)dx

其中,P(a\leq X\leq b)表示随机变量 X落在区间[a,b] 内的概率。

        概率密度值的主要作用是描述随机变量在不同取值上的相对可能性。更大的概率密度值意味着在该点附近取得相应取值的可能性较大。但是概率密度值并不是直接的概率,而是用于构建概率分布曲线,通过曲线下的面积来计算概率。

均值和标准差对正态分布曲线的作用:

        均值\mu决定了曲线的中心位置,而标准差\sigma则决定了曲线的宽度。

具体而言,正态分布的性质如下:

  1. 均值(\mu): 曲线的峰值位于均值处,而且曲线是关于均值对称的。

  2. 标准差(\sigma): 标准差决定了曲线的宽度。当标准差较大时,曲线较为扁平,即数据分布较为分散;当标准差较小时,曲线较为陡峭,数据分布较为集中。

  3. 曲线的形状: 正态分布的概率密度函数呈现出典型的钟形曲线,两侧尾部逐渐下降,这种形状是由指数函数的幂指数项-\frac{1}{2}\left ( \frac{x-\mu}{\sigma} \right )^2所导致。

下图所示,不同均值和标准差所绘制的曲线有所不同。

68-95-99.7规则:

        在正态分布中,数据集中的大约68%的数据在均值的1个标准差范围内,95%在2个标准差范围内,99.7%在3个标准差范围内,换言之该数据集数据极不可能出现在3个标准差范围之外。

具体来说:

1. 约68%的数据在均值的一个标准差范围内:(\mu -\sigma,\mu+\sigma)
2. 约95%的数据在均值的两个标准差范围内:(\mu-2\sigma,\mu-2\sigma)
3. 约99.7%的数据在均值的三个标准差范围内:(\mu-3\sigma,\mu-3\sigma)

        这个规则对于理解数据的分布和判断是否符合正态分布是很有帮助的。在实际应用中,如果数据大致符合正态分布,我们可以使用这个规则来估计数据集中的观测值相对于均值的位置。

标准化 (Z变换):

        标准化(Normalization)是将数据转换为具有特定范围或标准分布的过程。标准化通常指将数据集合的数值按照标准差进行标准化,使其具有平均值为0,标准差为1的特性。这通常称为Z-score标准化。

标准差的标准化公式为:

Z = \frac{X-\mu}{\sigma}

其中:

  • Z 是标准化后的值;
  • X是原始数据点;
  • \mu 是数据集的平均值;
  • \sigma 是数据集的标准差。

下图所示标准化的正态分布曲线:

        

标准化后的数据具有相对于原始数据集的均值和离散度的统计特性。

标准化后68-95-99.7规则分布如下:

        1. 约68%的数据在均值的一个标准差范围内:(-1,1)
        2. 约95%的数据在均值的两个标准差范围内:(-2,2)
        3. 约99.7%的数据在均值的三个标准差范围内:(-3,3)

进行Z变换之后可以使用查表法计算变量值Z对应的累积分布函数值P(Z\leq z),则P(Z \leq -z) = P(Z\geq z) = 1 - P(Z\leq z)P(-z\leq Z\leq z) = P(Z\leq z)-P(Z\leq -z)具体方法不在这里赘述。

下面是使用Python求解概率密度:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
from scipy.integrate import quad

mu = 0
sigma = 1
x = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 1000)

pdf_values = norm.pdf(x, mu, sigma)
plt.plot(x, pdf_values)

# 在指定范围内计算概率密度
lower_bound = -1
upper_bound = 1

def pdf_range(x):
    return norm.pdf(x, mu, sigma)

# 计算指定范围的概率密度
area_under_curve, _ = quad(pdf_range, lower_bound, upper_bound)

plt.fill_between(x, pdf_values, where=((x >= lower_bound) & (x <= upper_bound)), alpha=0.3, color='blue')
plt.text(-2, 0.25, f'{area_under_curve:.4f}', fontsize=10)
plt.show()

运行结果如下: 

本文章已经生成可运行项目
### 三、正态分布高斯分布概念及其关系 正态分布,又称为高斯分布,是统计学中最重要的连续概率分布之一。其核心特征是数据呈现出中间密集、两边稀疏的分布形态,即大多数观测值集中在均值附近,而远离均值的观测值出现的概率较低。正态分布的这种特性广泛存在于自然界和社会科学中,例如人类的身高、体重、家庭收入等都呈现出近似正态分布的特征[^2]。 高斯分布这一名称来源于德国数学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss),他在研究误差理论时提出了这种分布形式。高斯假设在误差分析中,算术平均是最优估计值,基于这一前提推导出误差服从正态分布,并进一步证明了正态分布在统计推断中的优良性质。因此,正态分布也被称为高斯分布,二者本质上是同一个分布,只是名称来源不同[^3]。 正态分布的概率密度函数形式为: $$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ 其中 $ \mu $ 表示均值,$ \sigma $ 表示标准差。该分布完全由这两个参数决定:均值决定分布的中心位置,标准差决定分布的宽度。正态分布具有对称性、集中性和峰度适中等统计特性。 在实际应用中,正态分布高斯分布)广泛用于自然科学、社会科学、金融工程、质量控制等领域。例如在金融中用于资产收益率建模,在质量控制中用于过程能力分析,在医学中用于生理指标的统计分析等。 ### 示例:使用 Python 绘制标准正态分布曲线 ```python import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # 生成标准正态分布的数据 x = np.linspace(-4, 4, 1000) y = norm.pdf(x, 0, 1) # 绘制曲线 plt.plot(x, y, label='Standard Normal/Gaussian Distribution') plt.title('Standard Normal (Gaussian) Distribution') plt.xlabel('Value') plt.ylabel('Density') plt.legend() plt.grid(True) plt.show() ``` ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值