置信区间是指由 样本统计量 所构造的总体参数的估计区间。
这句话也就是说 ( 这里统计量一般指均值 ) 利用样本均值来估计总体均值的可靠程度, 这个"可靠程度"用"置信区间"来表示, 置信区间(是一个系数)取值范围为: 0<置信区间<1; 这个置信区间就是用来描述真实的均值发生在某范围的概率
当样本量越大, 则越可靠.
置信区间计算公式:
ci = mean±stdN(ppf)( (1-α)/2 )
公式参数说明:
ci: 表示置信区间
mean: 表示样本均值
std: 表示样本标准差
N(ppf): 表示正态分布的百分点函数
α : 是显著性水平
α的取值跟样本量有关
样本量个数 | α取值 |
---|---|
0~99 | 0.1 |
100~500 | 0.05 |
501~1000 | 0.01 |
约2000 | 0.001 |
其中;百分点函数ppf是累积分布函数cdf的反函数
常用的几个置信区间的计算可以不用上述公式,而使用更简单的公式
置信水平是指特定个体对待特定命题真实性相信的程度
通常使用 90%,95% 和 99% 作为置信区间的置信水平。这三个置信水平的临界值分别为 1.64,1.98 和 2.32。
se是样本标准误, n是样本个数
se = mean/pow(n,0.5)
置信区间算法:
ci = mean-se1.64 置信水平为0.9
ci = mean-se1.98 置信水平为0.95
ci = mean-se*2.32 置信水平为0.99
举例来说,如果在一次大选中某人的支持率为55%,而置信水平(也称为可信区间)0.95以上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之2.5。 如例子中一样,置信水平一般用百分比表示,因此置信水平0.95上的置信空间也可以表达为:95%置信区间。置信区间的两端被称为置信极限。对一个给定情形的估计来说,显著性水平越高,所对应的置信区间就会越大。
但是; 重点来了, 在python里可以直接调用函数求出置信区间
置信水平 = 可信区间 = 可信度 ;他们是同一个说法(其中可信度是为了方便理解,在案例中我用于替代置信水平的)
置信区间宽度 = 置信区间上极限 - 置信区间下极限
结论是:置信区间宽度越小,预测模型越精确;但是置信区间宽度小了,可信度也就越小了
""" 置信区间 """
df = len(data) - 1
alpha= # 是设定的可信区间, 可以理解为可信度; 数值是百分数,取值范围(0,1)
ci = stats.t.interval(alpha, df, loc=np.mean(data), scale=stats.sem(data)) # ci是置信区间