置信区间 vs. 预测区间

原文:towardsdatascience.com/confidence-interval-vs-prediction-interval-a6b0c4816a92

在许多数据科学相关的任务中,我们想知道我们对结果有多确定。了解我们可以信任结果的程度有助于我们做出更好的决策。

一旦我们量化了结果伴随的不确定性水平,我们就可以用它来做:

  • 情景规划以评估最佳和最坏的情况

  • 风险评估以评估对决策的影响

  • 模型评估以比较不同的模型和模型性能

  • 与决策者沟通他们应该对结果有多少信任

不确定性量化及其重要性

不确定性从何而来?

让我们来看一个简单的例子。我们想要估计德国 300 平方米房屋的平均价格。收集所有 300 平方米房屋的数据是不可行的。相反,我们将基于一个代表性的子集来计算平均价格。

不确定性就来源于这里:抽样过程。我们只有关于人口的一个子集或样本的信息。不幸的是,样本永远不能完美地代表整个群体。因此,真实的人口参数将不同于我们的样本估计。这也被称为抽样误差。此外,根据我们如何抽样,结果也会不同。比较两个样本,我们将得到一个 300 平方米房屋的不同平均价格。

如果我们想要预测平均价格,我们面临同样的问题。我们无法收集到我们需要的所有人口数据。相反,我们必须基于人口的一个子集来构建我们的模型。这导致抽样不确定性,因为我们不知道平均价格(即因变量)与平方米(即自变量)之间的确切关系。

因此,由于抽样过程,我们总是存在一些不确定性。我们应该量化这种不确定性。我们可以通过给出一个预期真实值所在的区间来做这件事。区间或间隔越窄,我们越确定。(假设该区间保证覆盖。)

量化不确定性时,通常有两个概念被交替使用:置信区间预测区间

你会经常听到它们,因为它们是统计学中的基本概念,因此也是数据科学领域的基本概念。从高层次来看,两者都提供了一个关于目标变量估计的概率上下限。这些界限创建了一个区间,量化了不确定性。

然而,从更详细的角度来看,它们指的是两件不同的事情。因此,我们不应互换使用它们。将置信区间解释为预测区间会给出错误的关于不确定性的感觉。结果,我们可能会做出错误的决定。

本文将帮助您避免这种陷阱。我将向您展示置信区间和预测区间分别衡量什么。基于此,我将向您展示它们的区别以及何时使用哪个区间。

因此,让我们从更著名/更常使用的一个开始。


置信区间

置信区间量化了从样本集中估计总体参数(如均值)时的抽样不确定性。因此,置信区间显示了我们所抽样参数的均值响应的不确定性。

但这究竟意味着什么呢?

让我们以房屋价格为例。我们想要估计德国 300 平方米房屋的平均价格。我们的总体是这一类所有的房屋。然而,我们无法收集所有房屋的数据。相反,我们收集了一些房屋的数据,即我们的样本。

然后,我们通过以下方式确定样本均值的置信区间:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/86979bb11063a7385827288a35c31083.png

其中,x 是均值,z 是均值的标准差数(即,表示置信水平,95%时为 1.96,99%时为 2.576),s* 是样本标准差,n 是样本大小。

我们可以对总体中的不同样本重复此过程。

好吧,但我们应该如何解释置信区间呢?

95%的置信水平意味着如果我们多次重复抽样过程,95%的区间将包含真实的总体参数。置信水平指的是区间生成过程的长期性能。置信水平不适用于特定区间。它并不意味着真实值有 95%的可能性位于单个样本的区间内。这也被称为频率主义方法。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/934859811b82e3428ead554ee7452af4.png

从正态分布中抽取不同的样本并确定均值的 90%置信区间。一些置信区间不包含总体均值(红色柱状图)。(图片由作者提供)

这是一个非常微妙但重要的区别。95%的置信水平适用于区间生成过程,而不是特定区间。

让我们假设我们有一个针对德国 300 平方米房屋的 95%置信区间,范围在 40 万欧元到 100 万欧元之间。

我们可以预期,我们抽取的样本中有 95%将包含其置信区间内的真实均值。这个陈述强调了如果你多次重复抽样和区间计算过程,捕获真实均值的长期概率。

然而,你经常听到“我们有 95%的把握,真实总体均值在 40 万欧元到 100 万欧元之间。”这在技术上是不正确的,并暗示了对特定区间的更多确定性。但它给出了一个一般的直觉,因为它更容易解释。这个陈述反映了 95%的类似计算区间将捕获真实参数。

哪些因素会影响置信区间的宽度?

观察上面的方程,我们可以识别出两个因素:总体方差和样本大小。

当总体方差越高时,我们的样本变化就越大。因此,样本标准差就越大,导致置信区间更宽。这是有道理的。由于更高的变化性,我们不太确定样本参数接近总体参数。

较大的样本大小可以平衡少数异常值的影响,同时样本更加相似。因此,我们可以更有信心,从而有更窄的置信区间。这在上面的方程中也有所反映。随着样本大小的增加,分母变得更大,导致区间变窄。相反,较小的样本大小会导致置信区间更宽。较少的抽取提供的信息更少,并且随着抽样误差可能性的增加,变化性会更大。


预测区间

预测区间量化了从特定独立变量的值和先前数据中未来单个观察值的不确定性。因此,预测区间必须考虑到估计期望值的不确定性和单个值的随机变化。

例如,我们有一个 95%的预测区间,表示德国 300 平方米房屋的价格范围在 40 万欧元到 100 万欧元之间。这意味着任何 300 平方米的房屋有 95%的几率会落在这个范围内。

哪些因素会影响预测区间的宽度?

两个因素会影响预测区间的宽度:模型估计的方差和目标变量的方差。

同样,与置信区间一样,预测区间必须考虑到模型中的变化性。估计的方差越大,不确定性越高,区间就越宽。

此外,预测区间还取决于目标变量的方差。目标变量的方差越大,预测区间就越宽。

在我们覆盖了基础知识之后,让我们继续探讨它们之间的区别。


置信区间与预测区间的区别

置信区间

  • 表示总体参数的波动范围,例如均值或回归系数。(“我们有 95%的信心认为总体均值落在这个范围内。”(尽管这在技术上是不正确的,如我上面所述))

  • 关注过去或当前事件

预测区间

  • 表示特定值的波动范围。(“我们有 95%的信心认为下一个观察值将落在这个范围内。”)

  • 关注未来事件

为了使事情更清晰。让我们考虑一个看起来像这样的回归问题:

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6017ed97ee43866f7253554b481217a6.png

在这里,y 是目标值,E[y|x] 是期望的均值响应,x 是特征值,_beta0 是斜率系数,_beta1 是截距系数,epsilon 是噪声项。

置信区间显示了与估计期望值 E[y|x] 相关的抽样不确定性。相比之下,预测区间显示了 y 整个范围内的不确定性,而不仅仅是期望值。

<…/Images/e7f491d74461f49852c66fe456f8aeff.png>

置信区间和预测区间的区别。置信区间显示了给定 x 的 y 的均值的不确定性,即期望 E[y|x]。预测区间显示了给定 x 的单个 y 的不确定性。(图片由作者提供)

假设我们有一个基于平方米预测房屋价格的线性回归模型。300 平方米房屋的 95%置信区间可能是(250,000 €,270,000 €)。同一房屋的 95%预测区间可能是(220,000 €,300,000 €)。

我们可以看到,置信区间比预测区间更窄。这是自然的。预测区间必须考虑到与均值相比单个观察值的额外不确定性。预测区间显示了单个 300 平方米房屋价格的波动范围。相比之下,置信区间显示了 300 平方米房屋平均价格的波动范围。

因此,使用置信区间来表示单个未来观察值的波动范围可能会导致对预测准确性的错误感知。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/c6fd910ab3c17cafcb298722f4b76e4c.png


结论

在这篇文章中,我向您展示了两个基本但非常重要的概念,它们用于量化不确定性。尽管它们经常被互换使用,但它们不应该如此。

如果你一直读到这儿,你现在应该…

  • 了解置信区间和预测区间是什么以及它们测量什么

  • 最重要的是,了解它们之间的区别以及何时使用哪个区间

如果你想要深入了解底层数学知识,请查看这篇文章。否则,请留言或期待我的下一篇文章。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值