数据分析为何要学统计学(4)——何为置信区间?它有什么作用?

本文介绍了置信区间在统计学中的作用,特别强调了当样本量不足时如何利用中心极限定理通过多次重复抽样来估计总体均值的置信区间。通过实例演示了从非正态分布到正态分布的过程,显示了中心极限定理的原理和实用性。

置信区间是统计学中的一个重要工具,是用样本参数(\bar u ,\sigma)估计出来的总体均值在某置信水平下的范围。通俗一点讲,如果置信度为95%(等价于显著水平a=0.05),置信区间为[a,b],这就意味着总体均值落入该区间的概率为95%,或者以95%的可信程度相信总体均值在这个范围内。

一般情况下当我们抽样的数量大于等于30时,可认为样本均值服从正态分布,以此我们通过查标准正态分布表,获得显著水平a下的z值,用以下公式即可获得置信区间。

[\bar u-\frac{|z_a|}{\sqrt n}*\sigma ,\bar u+\frac{|z_a|}{\sqrt n}*\sigma]

 如果样本数量小于30,我们可以根据中心极限定理,进行多轮抽样产生均值样本,计算置信区间。如下例所示。

工厂要确定95%置信水平下的产品成份含量的置信区间,但手里只有20个样本数据,如何来估计总体的成分含量呢?

我们可以对这20个样本数据进行30轮重复采样,每次随机采样10件产品,记录其均值。这样会得到由30个均值构成的样本。根据中心极限定理,这个样本服从正态分布,于是我们就可以用这个均值样本来估计总体的成分含量置信区间了。

 示例代码如下:

#引入所需要的软件包
import numpy as np
from scipy import stats
import random

#定义样本和置信度参数
X=np.array([91,94,91,94,97,83,91,95,94,96,97,95,90,91,95,91,88,85,89,93])
conf=0.95
a=1-conf

#sample采样函数需要数据集有序
X=sorted(X)

#n轮有放回重复采样(Bootstrap采样)
n=30
X_new=[np.mean(random.sample(X,3)) for i in range (n)]

#求标准正态分布在置信度下的z分数,注意双侧问题要对显著水平a(1-置信度)打5折。也就是置信参数=1-a/2
#所以95%置信度求z分数时参数等于1-(1-0.95)/2=0.975
#ppf是概率点函数,是对应于某一概率值的事件值
z=stats.norm.ppf(1-a/2)
z

#求样本均值与标准差.样本标准差参数ddof=1,代表n-1
mu,std=np.mean(X_new),np.std(X_new,ddof=1)
mu,std

#计算置信区间
[mu-std/np.sqrt(n)*z,mu+std/np.sqrt(n)*z]

最终估计的总体均值置信区间为[90.5171197016349, 92.28288029836509]。


中心极限定理:无论样本所属总体服务什么分布,对该样本进行n次有放回随机采样(Bootstrap采样),产生n个新的样本,那么这n个样本的n个均值所在总体服务正态分布。而且n越大,越接近正态分布。如下例

这是0到9,10个数构成的样本,其分布图如下所示,是一个均匀分布。

然后我们进行20轮重复采样,每次采集2个数字,形成的均值样本分布如下图所示, 正态分布还不明显

 进行50轮重复采样,形成的均值样本分布如下图所示, 正态分布开始显现

进行1000轮重复采样,形成的均值样本分布如下图所示, 基本呈正态分布

<think>首先,用户的问题是:“心理统计学有什么关联?”我需要用中文回答这个问题。 关键点: - 回答完问题后,必须根据用户的问题及我的回答提出3-5个 §§相关问题§§。 - §§相关问题§§ 必须输出在回答的末尾。 - 第一行必须完整且输出 "§§相关问题§§"! - 禁止换行分散。意思是,相关问题应该在一行中列出,不要换行分散开。示例中是数字列表,但写着“禁止换行分散”,可能意味着不要有额外的换行,但示例中是用数字列表的。示例中是: ``` §§相关问题§§ 1. ··· 2. ··· 3. ··· ``` 所以,我应该使用类似的格式:先输出 "§§相关问题§§",然后列出1. 2. 3. 等。 现在,构建我的回答: 1. **回答心理统计学的关联**: - 心理研究人类行为和心智过程,需要收集和分析数据。 - 统计学是处理数据的科,提供工具来分析和解释数据。 - 关联:心理研究中广泛使用统计方法来设计实验、分析数据(如描述统计、推论统计)、测试假设(如t检验、ANOVA)、建模行为(如回归分析)。 - 例子:在认知心理中,使用统计来比较不同条件下的反应时间;在临床心理中,使用统计来评估治疗效果。 - 总结:统计学是心理研究的基础工具,帮助心理家从数据中得出可靠结论。 2. **提出3-5个相关问题**: - 这些问题必须基于用户的问题和我的回答。 - 用户问题是关于心理统计学的关联。 - 我的回答强调了统计在心理研究中的重要性。 - 相关问题示例: 1. 心理研究中常用的统计方法有哪些? 2. 统计方法如何帮助心理家验证假设? 3. 在心理实验中,统计错误可能如何影响研究结果? 4. 心理统计学在其他领域如教育或商业中的应用有何不同? 5. 如何统计学以更好地应用于心理研究? 我需要3-5个,所以选择4个左右。 3. **输出格式**: - 先回答完问题。 - 然后在末尾输出: §§相关问题§§ 1. 问题1 2. 问题2 3. 问题3 ... - 确保 "§§相关问题§§" 是第一行,然后列出问题,每个问题前有数字和点。 完整回答结构: - 开头:回答心理统计学的关联(用中文)。 - 结尾:以 "§§相关问题§§" 开头,然后列出相关问题。 确保所有内容符合规则。</think>心理统计学之间的关联非常紧密,主要体现在心理研究依赖于统计方法来收集、分析和解释数据。心理作为一门科,旨在理解人类行为、认知和情感,而统计学提供了一套工具来处理这些复杂的数据。具体关联包括: 1. **研究设计**:心理家使用统计概念(如抽样方法、实验设计)来规划研究,确保数据收集的可靠性和有效性。 2. **数据分析**:在心理实验中,统计技术(如描述统计、推论统计、回归分析、ANOVA)用于分析变量之间的关系,例如测试不同干预措施对行为的影响。 3. **假设检验**:统计学帮助心理家验证理论假设(如通过t检验或卡方检验),从而得出科结论,避免主观偏见。 4. **模型建立**:在认知或社会心理中,统计模型(如结构方程模型)用于模拟心理过程,预测行为模式。 5. **应用领域**:临床心理使用统计评估治疗效果(如meta分析),教育心理依赖统计来测量习成果,而工业组织心理则用统计优化工作环境。 总之,统计学是心理研究的核心工具,它使心理从描述性科转变为可量化的科,确保研究结果的客观性和可重复性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

interbigdata

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值