正态分布检验算法(检验是否服从正态分布)Python代码

该文详细展示了如何用Python进行数据预处理,包括计算均值、方差,并通过卡方检验检验数据的正态性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import pandas as pd
import numpy as np
import torch
from scipy.stats import norm
from scipy.stats import chi2

t=[]
s=0
df = pd.read_excel("5.xlsx", index_col=0)#读取数据,创造数据矩阵t
list_values = df.values.tolist()
for item in list_values:
    t.append([item[0]])
k=np.sum(t)/len(t)                       #求均值
for i in range(len(t)):                  #求方差
    s=s+(t[i]-k)**2/(len(t)-1)
s=float(s[0])
n=5                                      #划分的区间的个数
star=8                                   #所划分的第一个区间的下界
interval=1                               #区间长度

#统计落在各个区间的频数
b=[x for x in range(star,star+1+(n-2)*interval,interval)]
c=[10**5]#取一个足够大的数字代表正无穷
tt = np.array(t)
ttt=tt.flatten().tolist()
if star==0:
    inte=np.hstack((b,c))
    nf=pd.cut(ttt,bins=inte)
else:
    a=[0]
    inte=np.hstack((a,b,c))
    nf=pd.cut(ttt, bins=inte)
values = nf.value_counts().values        #统计出的频数矩阵


#计算p的估计值
q=[]
for y in range(n-1):
    if y==0:
        l = norm.cdf((star + y*interval - k) / np.sqrt(s))
    else:
        l = norm.cdf((star +y*interval-k)/np.sqrt(s))- norm.cdf((star +y*interval-1-k)/np.sqrt(s))
    q.append(l)
q.append(1-np.sum(q))

#计算出检验统计量的样本值
sample=0
for y in range(n):
    sample= sample + ((values[y]-len(t)*q[y])**2)/(len(t)*q[y])

#进行卡方检验
np=n-2-1                                     #自由度
alpha=0.05                               #显著水平a
right_quarti=chi2.isf(q=alpha, df=np)    #计算单尾假设检验右分位点
ans=bool(sample < right_quarti)

print('均值估计值是:%f, 方差估计值是:%f' %(k,s))
print("p的估计值分别为:")
print(q)
print("检验统计量的样本值为:%4f"%sample)
print("正态分布检验结果:")
print(ans)

### 正态分布的定义 正态分布是一种连续概率分布,其特征在于数据围绕均值呈对称分布,形成经典的钟形曲线。这种分布由两个参数决定:均值(μ)和标准差(σ)。均值决定了分布的位置,而标准差则影响分布的宽度[^1]。 正态分布的概率密度函数可以表示为: ```math f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} ``` 其中 \(x\) 是随机变量,\(e\) 是自然常数,\(\pi\) 是圆周率。 --- ### 正态分布的应用场景 #### 自然与社会科学领域 正态分布被广泛用于描述自然界和社会科学中的各种现象。例如: - **生物学**:人类身高的分布通常接近正态分布。 - **医学**:血压水平、胆固醇含量等生理指标往往呈现正态特性。 - **教育学**:标准化测试的成绩(如高考分数)常常可以用正态分布来建模。 #### 工程与质量管理 在工程实践中,产品尺寸或其他物理属性可能遵循正态分布模式。通过假设误差项服从正态分布,工程师能够利用统计工具评估生产过程的质量并检测异常情况。此外,在质量控制中,Z得分可用于判断观测值是否偏离正常范围[^3]。 #### 经济与金融 尽管金融市场本身并不完全满足正态性条件,但由于中心极限定理的作用,大量独立随机变量(比如每日股票收益率)的平均行为会趋向于正态分布。这一性质使得正态分布在风险管理和资产定价等领域占据重要地位。 #### 数据分析与机器学习 正态分布还频繁出现在数据分析和技术开发过程中。具体来说: - 它作为某些算法的基础假设发挥作用,例如线性回归模型假定了残差服从正态分布; - 贝叶斯推理框架下先验分布的选择也可能基于正态形式; - 激活函数设计时考虑到了输入信号应尽可能符合某种理想化的分布形态——通常是零均值单位方差的标准正态分布[^2]。 #### 异常检测 当样本来源于理论上应该遵从特定类型的分布体系结构之时,则可以通过对比实际观察到的结果同理论预期之间的差异程度来进行异常探测工作。对于近似正态的情形而言,如果某个数值落在两端极低百分位之外(如两侧各占总体比例约0.35%),那么它就很可能是离群点或者说是特殊事件实例[^4]。 --- ### 总结 综上所述,正态分布不仅是一个基础性的概念,而且贯穿了众多学科的研究实践当中。无论是探索未知规律还是解决现实问题,掌握好关于它的基础知识都是非常必要的。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

歌者長門

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值