数据分析 (Analytics) --置信区间 (CI)

置信区间 (CI) 是一个值范围,用于估计真实总体值可能下降的位置。与其说学生的平均身高是 165 厘米,不如说我们 95% 的信心,真正的平均身高在 160 厘米到 170 厘米之间。

    在深入研究置信区间之前,您应该熟悉以下内容:

    解释置信区间

    假设我们抽取 50 名学生的样本,计算 出他们平均身高的 95% 置信区间,结果是 160-170 厘米。这意味着,如果我们重复采用类似的样本,则这些区间的 95% 将包含总体中所有学生的真实平均身高

    2

    置信区间

    Confidence level 告诉我们 true 值在计算范围内的确定程度。如果我们必须多次重复采样过程,我们预计这些区间的一定百分比将包括 true 值。

    • 90% 置信度:90% 的区间将包括真实的总体值。
    • 95% 置信度:95% 的区间将包括数据科学中常用的真实值。
    • 99% 置信度:99% 的区间将包含真实值,但区间会更宽。

    为什么置信区间在数据科学中很重要?

    • 它们有助于衡量预测和估计中的不确定性。
    • 通过这些数据,科学家们找到了可靠的结果,而不仅仅是给出一个数字。
    • 它们广泛用于 A/B 测试、机器学习和调查分析,我们稍后会研究这些分析以检查结果是否有意义。

    构造置信区间的步骤

    要计算置信区间,请遵循以下简单的 4 个步骤:

    步骤 1:确定样本问题。

    定义要估计的总体参数,例如,学生的平均身高。选择正确的统计数据,例如样本均值

    第 2 步:选择置信度。

    在此步骤中,我们选择置信度,一些常见的选择是 90%、95% 或 99%。 它代表了我们对估计的确定程度。

    第 3 步:找到误差幅度。

    要找到 Margin of Error,请使用以下公式:

    M一个rg我n of Error=Cr我t我c一个l V一个lue×St一个nd一个rd ErrorMargin of Error=Critical Value×Standard Error

    对于小样品,使用 Z 表或 T 表找到临界值。首先,您选择显著性水平 (α),对于 95% 的置信水平,该水平通常为 0.05。然后决定您是执行单尾还是双尾测试,其中双尾是更常见的选择。在此之后,您可以根据显著性水平和测试类型在 Z 表或 T 表中查看相应的值。

    标准误差衡量样本的变异性,通过将样本的标准差除以样本量的平方根来计算。将临界值和标

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    算法资料吧!

    我会继续分享编程资料,学习资料

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值