预测模型与误差度量:原理、实例与评估
预测模型的统计特性
预测模型的输出往往并非固定值,而是一个随机变量。这是因为预测方法(M)对数据(D)进行预测得到的观测结果(R),会导致误差度量(E)呈现特定值。这里的误差度量值 E 是从分布 fR(M, D) 中抽取的,在统计学里,具有这种特性的变量就被称为随机变量。
那么,这种随机性究竟从何而来呢?从统计学可知,当一个确定性函数的输入为随机变量时,其输出也会是随机变量。具体来说,若变量 x 从分布 fx 中抽取,即 x ∼ fx,通过确定性函数 g:x → y 映射到 y,那么 y 同样是随机变量。
在预测模型中,由于方法(M)通常是固定的,所以随机性主要源于数据(D)。对于给定的数据集 D = {xi}ni=1(包含 n 个样本),每个数据点 xi 都从由实验(Ex)确定的分布中抽取,即 xi ∼ fD(Ex)。这意味着每个数据点 xi 测量的随机性会转化为误差度量 E 的随机性,这种随机性的传递适用于任何预测模型。
为了更直观地理解这一理论结果,下面通过一个数值例子进行说明。以 t 检验作为预测模型,生成均值 μ = 0.4、标准差 σ = 0.1 的正态分布数据,即 xi ∼ N(μ, σ)(i ∈ {1, …, n},n 为样本大小)。我们要检验的假设如下:
- 原假设:总体均值为 0.5,即 μ = 0.5。
- 备择假设:总体均值不为 0.5,即 μ ≠ 0.5。
对两组不同数据 D1 和 D2 进行 t 检验,得到的 p 值分别为 p1 = 0.0084 和 p2 = 0.1607。可以发现,p1 和 p2 不仅数值不同,而且差异较大,p2 几乎是 p1 的 20
超级会员免费看
订阅专栏 解锁全文
1067

被折叠的 条评论
为什么被折叠?



