贝叶斯最小均方误差(MMSE)误差估计详解
在误差估计领域,对误差估计器的均方根(RMS)进行界定存在三种情况:
1.
特征 - 标签分布已知
:此时分类问题可归结为寻找贝叶斯分类器和贝叶斯误差,不存在分类器设计或误差估计问题。
2.
缺乏先验知识
:对特征 - 标签分布没有先验知识,通常无法得到合适的界定,或者界定过于宽松,不具实际应用价值。
3.
分布处于不确定类
:实际的特征 - 标签分布包含在一个不确定类中,且该不确定类需有足够的约束(即先验知识足够丰富),才能在可接受的样本量下获得可接受的界定。
在第三种情况下,若为特征 - 标签分布的不确定类设定一个先验分布,那么应利用这些先验知识来获得误差估计,而非采用诸如自助法或交叉验证等临时规则,即便需假设一个非信息性的先验分布。这可通过寻找误差的最小均方误差(MMSE)估计器来实现,此时不确定性将在贝叶斯框架下,相对于特征 - 标签分布和随机样本空间体现出来。
贝叶斯MMSE误差估计器
设 $S_n$ 是来自特征 - 标签分布的样本,该分布是由随机变量 $\theta$ 参数化的不确定类分布的一员,由先验分布 $\pi(\theta)$ 支配,每个 $\theta$ 对应一个特征 - 标签分布,记为 $f_{\theta}(x, y)$。设 $\varepsilon_n(\theta, S_n)$ 表示设计的分类器 $\psi_n$ 在 $f_{\theta}$ 上的真实误差,我们期望得到 $\varepsilon_n(\theta, S_n)$ 的一个依赖于样本的MMSE估计器 $\hat{\varepsilon}(S_n)$,即找到 $E_{\theta,S_n}[|\varepsilon_n(\theta, S_n) - \xi(S_n)|^2]$ 在所有Borel可测函数 $\xi(S_n)$ 上的最小值。已知解为条件期望:
$\hat{\varepsilon}(S_n) = E_{\theta}[\varepsilon_n(\theta, S_n) | S_n]$
此即贝叶斯MMSE误差估计器。它不仅能最小化 $E_{\theta,S_n}[|\varepsilon_n(\theta, S_n) - \xi(S_n)|^2]$,还是 $\theta$ 和 $S_n$ 的分布 $f(\theta, S_n)$ 上的无偏估计器,即:
$E_{S_n}[\hat{\varepsilon}(S_n)] = E_{\theta,S_n}[\varepsilon_n(\theta, S_n)]$
不过,$\hat{\varepsilon}(S_n)$ 是 $f(\theta, S_n)$ 上 $\varepsilon_n(\theta, S_n)$ 的无偏MMSE估计器,并不意味着它能很好地估计特定 $\bar{\theta}$ 下的 $\varepsilon_n(\bar{\theta}, S_n)$。这与期望平方差 $E_{S_n}[|\varepsilon_n(\bar{\theta}, S_n) - \hat{\varepsilon}(S_n)|^2]$ 有关,其有如下界定:
$E_{S_n}[|\varepsilon_n(\bar{\theta}, S_n) - \hat{\varepsilon}(S_n)|^2] = E_{S_n}
\left[
\left|
\varepsilon_n(\bar{\theta}, S_n) - \int \varepsilon_n(\theta, S_n)f(\theta | S_n)d\theta
\right|^2
\right]
= E_{S_n}
\left[
\left|
\int \varepsilon_n(\theta, S_n)[f(\theta | S_n) - \delta(\theta - \bar{\theta})]d\theta
\right|^2
\right]
\leq E_{S_n}
\left[
\left(
\int \varepsilon_n(\theta, S_n)|f(\theta | S_n) - \delta(\theta - \bar{\theta})|d\theta
\right)^2
\right]$
其中 $\delta(\theta)$ 是狄拉克广义函数。该分布不等式表明,对实际特征 - 标签分布 $f_{\bar{\theta}}(x, y)$ 的估计精度取决于给定 $S_n$ 时 $\theta$ 的条件分布的质量在 $\bar{\theta}$ 处的集中程度,且需在抽样分布上取平均。
条件分布 $f(\theta | S_n)$ 刻画了关于 $\theta$ 实际值 $\bar{\theta}$ 的不确定性,此条件分布称为后验分布 $\pi^
(\theta) = f(\theta | S_n)$。基于这些约定,贝叶斯MMSE误差估计器可写为:
$\hat{\varepsilon} = E_{\pi^
}[\varepsilon_n]$
在二分类中,$\theta$ 是一个由三部分组成的随机向量:类0条件分布的参数 $\theta_0$、类1条件分布的参数 $\theta_1$ 以及类0的概率 $c = c_0$(类1的概率为 $c_1 = 1 - c$)。为便于分析,假设在观察数据之前,$c$、$\theta_0$ 和 $\theta_1$ 相互独立。此假设虽有局限性,但能将后验联合密度 $\pi^*(\theta)$ 分离,最终将贝叶斯误差估计器分离为代表每个类所贡献误差的组件。
后验分布 $\pi^
(\theta)$ 可表示为:
$\pi^
(\theta) = f(c, \theta_0, \theta_1 | S_n) = f(c | S_n, \theta_0, \theta_1)f(\theta_0 | S_n, \theta_1)f(\theta_1 | S_n)$
假设给定 $n_0$ 时,$c$ 与 $S_n$ 以及每个类的分布参数相互独立,且给定 $n_0$ 时,类0的样本 $S_{n_0}$ 和分布参数与类1的样本 $S_{n_1}$ 和分布参数相互独立,则有:
$\pi^
(\theta) = f(c | n_0)f(\theta_0 | S_{n_0})f(\theta_1 | S_{n_1}) = \pi^
(c)\pi^
(\theta_0)\pi^
(\theta_1)$
其中 $\pi^
(\theta_0)$、$\pi^
(\theta_1)$ 和 $\pi^*(c)$ 分别是参数 $\theta_0$、$\theta_1$ 和 $c$ 的边际后验密度。
在寻找参数的后验概率时,只需考虑来自相应类的样本点。利用贝叶斯规则,有:
$\pi^
(\theta_y) = f(\theta_y | S_{n_y})
\propto \pi(\theta_y)f(S_{n_y} | \theta_y)
= \pi(\theta_y)
\prod_{i:y_i = y}
f_{\theta_y}(x_i | y)$
其中比例常数可通过将 $\pi^
(\theta_y)$ 的积分归一化为1来确定,$f(S_{n_y} | \theta_y)$ 称为似然函数。
对于 $c$ 的先验分布,有三种模型:beta、均匀和已知。不同模型下的后验分布及期望如下表所示:
| 先验分布类型 | 后验分布 $\pi^
(c)$ | 期望 $E_{\pi^
}[c]$ |
| — | — | — |
| Beta分布 $Beta(\alpha, \beta)$ | $\frac{c^{n_0 + \alpha - 1}(1 - c)^{n_1 + \beta - 1}}{B(n_0 + \alpha, n_1 + \beta)}$ | $\frac{n_0 + \alpha}{n + \alpha + \beta}$ |
| 均匀分布 | $\frac{(n + 1)!}{n_0!n_1!}c^{n_0}(1 - c)^{n_1}$ | $\frac{n_0 + 1}{n + 2}$ |
| 已知 $c$ | - | $c$ |
由于 $c$、$\theta_0$ 和 $\theta_1$ 后验独立,且 $\varepsilon_{n}^y$ 仅是 $\theta_y$ 的函数,贝叶斯MMSE误差估计器可表示为:
$\hat{\varepsilon} = E_{\pi^
}[\varepsilon_n]
= E_{\pi^
}
[c\varepsilon_{n}^0 + (1 - c)\varepsilon_{n}^1
]
= E_{\pi^
}[c]E_{\pi^
}
[\varepsilon_{n}^0
] + (1 - E_{\pi^
}[c])E_{\pi^
}
[\varepsilon_{n}^1
]$
其中 $E_{\pi^
}[\varepsilon_{n}^y]$ 可视为类 $y$ 所贡献误差的后验期望,有:
$E_{\pi^
}
[\varepsilon_{n}^y
] = \int_{\Theta_y}
\varepsilon_{n}^y(\theta_y)\pi^
(\theta_y)d\theta_y$
令 $\hat{\varepsilon}
y = E
{\pi^
}
[\varepsilon_{n}^y
]$,则贝叶斯MMSE误差估计器可写成:
$\hat{\varepsilon} = E_{\pi^
}[c]\hat{\varepsilon}
0 + (1 - E
{\pi^
}[c])\hat{\varepsilon}_1$
样本条件均方误差(MSE)
传统评估误差估计器性能的方法是针对给定的特征 - 标签分布和分类规则,求其均方误差(RMS),期望是相对于抽样分布而言,即性能体现在样本集合上。而在贝叶斯MMSE误差估计中,存在两个随机源:抽样分布和底层特征 - 标签分布的不确定性。因此,对于固定样本,可考察其在不确定类上的性能,这引出了样本条件均方误差 $MSE(\hat{\varepsilon} | S_n)$。
样本条件均方误差具有重要的实际价值,可在抽样过程中更新RMS,实现实时性能测量。例如,可采用截尾抽样,即抽样直至 $MSE(\hat{\varepsilon} | S_n)$ 令人满意,或直至 $MSE(\hat{\varepsilon} | S_n)$ 和误差估计都令人满意。
$MSE(\hat{\varepsilon} | S_n)$ 的计算如下:
$MSE(\hat{\varepsilon} | S_n) = E_{\theta}
[(\varepsilon_n(\theta) - \hat{\varepsilon})^2 | S_n
]
= E_{\theta}
[(\varepsilon_n(\theta) - \hat{\varepsilon})\varepsilon_n(\theta) | S_n
] + E_{\theta}
[(\varepsilon_n(\theta) - \hat{\varepsilon})\hat{\varepsilon} | S_n
]
= E_{\theta}
[(\varepsilon_n(\theta) - \hat{\varepsilon})\varepsilon_n(\theta) | S_n
]
= E_{\theta}
[(\varepsilon_n(\theta))^2 | S_n
] - (\hat{\varepsilon})^2
= Var_{\theta}
(\varepsilon_n(\theta) | S_n
)$
由于 $\theta_0$、$\theta_1$ 和 $c$ 后验独立,可通过条件方差公式展开:
$MSE(\hat{\varepsilon} | S_n) = Var_{c,\theta_0,\theta_1}
(c\varepsilon_{n}^0(\theta_0) + (1 - c)\varepsilon_{n}^1(\theta_1) | S_n
)
= Var_{c}
(
E_{\theta_0,\theta_1}
[c\varepsilon_{n}^0(\theta_0) + (1 - c)\varepsilon_{n}^1(\theta_1) | c, S_n
] | S_n
)
+ E_{c}
[
Var_{\theta_0,\theta_1}
(c\varepsilon_{n}^0(\theta_0) + (1 - c)\varepsilon_{n}^1(\theta_1) | c, S_n
) | S_n
]$
进一步分解可得:
$MSE(\hat{\varepsilon} | S_n) = Var_{c}
(\hat{c}\varepsilon_0 + (1 - c)\hat{\varepsilon}
1 | S_n
)
+ E
{\pi^
}
[c^2] Var_{\theta_0}
(\varepsilon_{n}^0(\theta_0) | S_n
) + E_{\pi^
}
[(1 - c)^2] Var_{\theta_1}
(\varepsilon_{n}^1(\theta_1) | S_n
)
= Var_{\pi^
}(c) (\hat{\varepsilon}
0 - \hat{\varepsilon}_1)^2
+ E
{\pi^
}
[c^2] Var_{\pi^
}
(\varepsilon_{n}^0(\theta_0)) + E_{\pi^
}
[(1 - c)^2] Var_{\pi^
}
(\varepsilon_{n}^1(\theta_1))$
利用恒等式 $Var_{\pi^
}
(\varepsilon_{n}^y(\theta_y)) = E_{\pi^
}[(\varepsilon_{n}^y(\theta_y))^2] - (\hat{\varepsilon}
y)^2$,可得:
$MSE(\hat{\varepsilon} | S_n) = -(E
{\pi^
}[c]
)^2 (\hat{\varepsilon}
0)^2 - 2Var
{\pi^
}(c) \hat{\varepsilon}
0 \hat{\varepsilon}_1 - (E
{\pi^
}[1 - c]
)^2 (\hat{\varepsilon}
1)^2
+ E
{\pi^
}
[c^2] E_{\pi^
}[(\varepsilon_{n}^0(\theta_0))^2] + E_{\pi^
}[(1 - c)^2]E_{\pi^
}[(\varepsilon_{n}^1(\theta_1))^2]$
为得到 $MSE(\hat{\varepsilon} | S_n)$,除涉及 $c$ 的期望外,还需找到 $E_{\pi^ }[\varepsilon_{n}^y]$ 和 $E_{\pi^ }[(\varepsilon_{n}^y)^2]$($y = 0, 1$)的一阶和二阶后验矩。接下来将针对离散分类和高斯类条件密度的线性分类进行求解。
离散分类
对于离散分类,考虑具有广义beta先验的任意数量的区间。定义每个类的参数包含除一个区间概率外的所有区间概率,即 $\theta_0 = {p_1, p_2, \ldots, p_{b - 1}}$ 和 $\theta_1 = {q_1, q_2, \ldots, q_{b - 1}}$。使用狄利克雷先验:
$\pi(\theta_0) \propto
\prod_{i = 1}^{b}
p_{i}^{\alpha_{0_i} - 1}
$ 和 $\pi(\theta_1) \propto
\prod_{i = 1}^{b}
q_{i}^{\alpha_{1_i} - 1}
$
其中 $\alpha_{y_i} > 0$。若 $\alpha_{y_i} = 1$(对所有 $i$ 和 $y$),则得到均匀先验。增大特定的 $\alpha_{y_i}$ 相当于在观察数据之前,为相应的区间赋予 $\alpha_{y_i}$ 个来自相应类的样本。
为便于积分,定义线性一对一的变量变换:
$a_{0(i)} =
\begin{cases}
0, & i = 0 \
\sum_{k = 1}^{i} p_k, & i = 1, \ldots, b - 1 \
1, & i = b
\end{cases}$
类似地定义 $a_{1(i)}$。区间概率由 $a_{y(i)}$ 在区间 $[0, 1]$ 上的划分确定,即 $p_i = a_{0(i)} - a_{0(i - 1)}$。该变换的雅可比行列式为1,可将关于 $p_i$ 的积分转换为关于 $a_{0(i)}$ 的积分。
为得到后验分布 $\pi^
(\theta_0)$ 和 $\pi^
(\theta_1)$,有如下引理和定理:
-
引理8.1
:设 $b \geq 2$ 为整数,且 $U_i > -1$($i = 1, \ldots, b$)。若 $0 = a(0) \leq a(1) \leq \ldots \leq a(b - 1) \leq a(b) = 1$,则
$\int_{0}^{1} \int_{0}^{a(b - 1)}
\ldots \int_{0}^{a(3)} \int_{0}^{a(2)}
\prod_{i = 1}^{b}
(a(i) - a(i - 1))^{U_i}da(1)da(2) \ldots da(b - 2)da(b - 1)
=
\frac{\prod_{k = 1}^{b} \Gamma (U_k + 1)}{\Gamma
(\sum_{i = 1}^{b} U_i + b
)}$
-
定理8.1
:在具有狄利克雷先验的离散模型中,$\theta_0$ 和 $\theta_1$ 的后验分布为:
$\pi^
(\theta_0) =
\frac{\Gamma
(
n_0 + \sum_{i = 1}^{b} \alpha_{0_i}
)}{\prod_{k = 1}^{b} \Gamma (U_k + \alpha_{0_k}
)}
\prod_{i = 1}^{b}
p_{i}^{U_i + \alpha_{0_i} - 1}$
$\pi^
(\theta_1) =
\frac{\Gamma
(
n_1 + \sum_{i = 1}^{b} \alpha_{1_i}
)}{\prod_{k = 1}^{b} \Gamma (V_k + \alpha_{1_k}
)}
\prod_{i = 1}^{b}
q_{i}^{V_i + \alpha_{1_i} - 1}$
对于任意固定的离散分类器 $\psi_n$,其一阶和二阶后验矩如下:
-
一阶后验矩
:
$E_{\pi^
}
[\varepsilon_{n}^0
] =
\sum_{j = 1}^{b}
\frac{U_j + \alpha_{0_j}}{n_0 + \sum_{i = 1}^{b} \alpha_{0_i}}
I_{\psi_n(j) = 1}$
$E_{\pi^
}
[\varepsilon_{n}^1
] =
\sum_{j = 1}^{b}
\frac{V_j + \alpha_{1_j}}{n_1 + \sum_{i = 1}^{b} \alpha_{1_i}}
I_{\psi_n(j) = 0}$
-
二阶后验矩
:
$E_{\pi^
}
[(\varepsilon_{n}^0
)^2]
=
\frac{1 + \sum_{j = 1}^{b} I_{\psi_n(j) = 1}
(
U_j + \alpha_{0_j}
)}{1 + n_0 + \sum_{i = 1}^{b} \alpha_{0_i}}
\sum_{j = 1}^{b} I_{\psi_n(j) = 1}
(
U_j + \alpha_{0_j}
)\frac{1}{n_0 + \sum_{i = 1}^{b} \alpha_{0_i}}$
$E_{\pi^
}
[(\varepsilon_{n}^1
)^2]
=
\frac{1 + \sum_{j = 1}^{b} I_{\psi_n(j) = 0}
(
V_j + \alpha_{1_j}
)}{1 + n_1 + \sum_{i = 1}^{b} \alpha_{1_i}}
\sum_{j = 1}^{b} I_{\psi_n(j) = 0}
(
V_j + \alpha_{1_j}
)\frac{1}{n_1 + \sum_{i = 1}^{b} \alpha_{1_i}}$
将一阶后验矩代入贝叶斯MMSE误差估计器公式,将二阶后验矩代入 $MSE(\hat{\varepsilon} | S_n)$ 公式,可得到相应结果。在区间概率和 $c$ 均为均匀先验的特殊情况下,贝叶斯MMSE误差估计为:
$\hat{\varepsilon} = \frac{n_0 + 1}{n + 2}
(
\sum_{i = 1}^{b}
\frac{U_i + 1}{n_0 + b}I_{\psi_n(i) = 1}
)
+ \frac{n_1 + 1}{n + 2}
(
\sum_{i = 1}^{b}
\frac{V_i + 1}{n_1 + b}I_{\psi_n(i) = 0}
)$
实验表明,即使使用均匀先验,贝叶斯MMSE误差估计器在均方根误差(RMS)性能上也比重代入法和留一法有显著改进,尤其在小样本或区间数量较多的情况下。在固定分布的实验中,贝叶斯误差估计器在大多数分布下的性能优于重代入法和留一法,且在中等至高贝叶斯误差和小样本量时表现更佳。
在离散模型中,若 $c$ 的先验为beta分布,且 $\alpha_0 \leq \sum_{i = 1}^{b} \alpha_{0_i}$ 和 $\beta_0 \leq \sum_{i = 1}^{b} \alpha_{1_i}$,则有如下定理:
-
定理8.3
:$RMS(\hat{\varepsilon}) \leq
\sqrt{\frac{1}{4n}}$
该定理的证明过程如下:
1. 利用方差分解 $Var_{\pi^
}(\varepsilon_{n}^0(\theta_0)) = E_{\pi^
}[(\varepsilon_{n}^0(\theta_0))^2] - (\hat{\varepsilon}
0)^2$,结合二阶后验矩公式化简可得:
$Var
{\pi^
}
(\varepsilon_{n}^0(\theta_0)) =
\frac{\hat{\varepsilon}
0(1 - \hat{\varepsilon}_0)}{n_0 + \sum
{i = 1}^{b} \alpha_{0_i} + 1}$
同理,对于类1有:
$Var_{\pi^
}
(\varepsilon_{n}^1(\theta_1)) =
\frac{\hat{\varepsilon}
1(1 - \hat{\varepsilon}_1)}{n_1 + \sum
{i = 1}^{b} \alpha_{1_i} + 1}$
2. 将上述结果代入 $MSE(\hat{\varepsilon} | S_n)$ 公式,并应用 $c$ 的beta先验/后验模型,可得:
$MSE(\hat{\varepsilon} | S_n) =
\frac{(n_0 + \alpha_0) (n_1 + \beta_0)}{(n + \alpha_0 + \beta_0)^2(n + \alpha_0 + \beta_0 + 1)}(\hat{\varepsilon}
0 - \hat{\varepsilon}_1)^2
+
\frac{(n_0 + \alpha_0) (n_0 + \alpha_0 + 1)}{(n + \alpha_0 + \beta_0)(n + \alpha_0 + \beta_0 + 1)} \times
\frac{\hat{\varepsilon}_0(1 - \hat{\varepsilon}_0)}{n_0 +
\sum
{i = 1}^{b}
\alpha_{0_i} + 1}
+
\frac{(n_1 + \beta_0) (n_1 + \beta_0 + 1)}{(n + \alpha_0 + \beta_0)(n + \alpha_0 + \beta_0 + 1)} \times
\frac{\hat{\varepsilon}
1(1 - \hat{\varepsilon}_1)}{n_1 +
\sum
{i = 1}^{b}
\alpha_{1_i} + 1}$
3. 应用定理中的 $\alpha_0$ 和 $\beta_0$ 界限,进一步化简可得:
$MSE(\hat{\varepsilon} | S_n) \leq
\frac{1}{n + \alpha_0 + \beta_0 + 1}
\times
(
\frac{n_0 + \alpha_0}{n + \alpha_0 + \beta_0}
\frac{n_1 + \beta_0}{n + \alpha_0 + \beta_0} (\hat{\varepsilon}
0 - \hat{\varepsilon}_1)^2
+
\frac{n_0 + \alpha_0}{n + \alpha_0 + \beta_0} \hat{\varepsilon}_0(1 - \hat{\varepsilon}_0) +
\frac{n_1 + \beta_0}{n + \alpha_0 + \beta_0} \hat{\varepsilon}_1(1 - \hat{\varepsilon}_1)
)$
4. 令 $x = \hat{\varepsilon}_0$,$y = \hat{\varepsilon}_1$,$z = E
{\pi^*}[c]$,继续化简可得:
$MSE(\hat{\varepsilon} | S_n) \leq
\frac{zx + (1 - z) y - (zx + (1 - z) y)^2}{n + \alpha_0 + \beta_0 + \alpha}$
由 $\hat{\varepsilon} = zx + (1 - z) y$ 且 $0 \leq \hat{\varepsilon} \leq 1$,利用 $w - w^2 = w(1 - w) \leq \frac{1}{4}$(当 $0 \leq w \leq 1$),可得:
$MSE(\hat{\varepsilon} | S_n) \leq
\frac{\hat{\varepsilon} - (\hat{\varepsilon})^2}{n + \alpha_0 + \beta_0 + 1} \leq
\frac{1}{4(n + \alpha_0 + \beta_0 + 1)} \leq
\frac{1}{4n}$
比较该RMS界限与留出法的界限,发现贝叶斯MMSE误差估计器的RMS界限始终低于留出法的界限,当留出样本量 $m$ 趋近于总样本量 $n$ 时,留出法的界限收敛到贝叶斯估计界限。蒙特卡罗实验也证实了贝叶斯误差估计器在RMS性能上始终优于留出法误差估计器。
综上所述,贝叶斯MMSE误差估计器在误差估计领域具有重要的理论和实际应用价值,通过合理利用先验知识,能在多种情况下提供更准确的误差估计。
贝叶斯最小均方误差(MMSE)误差估计详解
实验验证与性能分析
为了更直观地展示贝叶斯MMSE误差估计器的性能,进行了一系列实验。
非信息性均匀先验实验
在使用非信息性均匀先验对任意数量的区间进行实验时,采用直方图分类规则和随机抽样。图展示了在区间概率和 $c$ 均为均匀先验的模型下,贝叶斯误差估计器相对于样本大小的平均均方根偏差(RMS),区间大小分别为 2、4、8 和 16。从实验结果可以看出,贝叶斯MMSE误差估计器在 $E_{\theta,S_n}[|\varepsilon_n(\theta, S_n) - \xi(S_n)|^2]$ 方面是最优的。即使使用均匀先验,它在小样本或区间数量较多的情况下,也比重代入法和留一法有显著的改进。
固定分布实验
在固定分布的实验中,设定 $c = 0.5$,使用 Zipf 模型,其中 $p_i \propto i^{-\alpha}$ 且 $q_i = p_{b - i + 1}$($i = 1, \ldots, b$),参数 $\alpha \geq 0$ 用于调整特定的贝叶斯误差,$\alpha$ 越大,贝叶斯误差越小。图展示了样本大小为 5 和 20 时,不同区间大小下,贝叶斯误差估计器相对于贝叶斯误差的 RMS。结果表明,贝叶斯误差估计器在大多数分布下的性能优于重代入法和留一法,尤其在中等至高贝叶斯误差和小样本量时表现更佳。不过,在假设均匀先验分布的情况下,贝叶斯MMSE误差估计器在小贝叶斯误差时性能会受到影响。若能确定贝叶斯误差较小,可使用更倾向于小贝叶斯误差的先验分布来改善性能。
条件均方误差实验
使用蒙特卡罗技术,在 $c = 0.5$ 固定的情况下,假设 $c$ 的先验为 Dirichlet 分布,超参数 $\alpha_{0_i} \propto 2b - 2i + 1$ 和 $\alpha_{1_i} \propto 2i - 1$($\sum_{i = 1}^{b} \alpha_{y_i} = b$,$y = 0, 1$),进行条件均方误差(MSE)实验。图展示了留一法和贝叶斯误差估计器的条件 RMS 的概率密度,样本大小分别为 $b = 8, n = 16$ 和 $b = 16, n = 30$,样本大小的选择使得期望的真实误差接近 0.25。从图中可以看出,贝叶斯误差估计器的条件 RMS 密度比留一法更集中,且集中在较低的 RMS 值上,其无条件 RMS 不到留一法的一半。在没有任何建模假设的情况下,分布自由的无条件 RMS 界限过于宽松,而贝叶斯框架能够提供样本条件 RMS 的精确表达式。
离散模型下的收敛性与界限分析
在离散模型中,有一个重要的结论:当样本量 $n$ 趋于无穷大时(相对于抽样过程几乎必然),$MSE(\hat{\varepsilon} | S_n)$ 趋于 0。同时,在一定假设下,还存在关于条件 MSE 作为样本大小函数的上界。
上界定理
定理表明,在离散模型中,若 $c$ 的先验为 beta 分布,且 $\alpha_0 \leq \sum_{i = 1}^{b} \alpha_{0_i}$ 和 $\beta_0 \leq \sum_{i = 1}^{b} \alpha_{1_i}$,则有 $RMS(\hat{\varepsilon}) \leq \sqrt{\frac{1}{4n}}$。
与留出法的比较
将该 RMS 界限与留出法的界限进行比较,发现贝叶斯MMSE误差估计器的 RMS 界限始终低于留出法的界限。当留出样本量 $m$ 趋近于总样本量 $n$ 时,留出法的界限收敛到贝叶斯估计界限。蒙特卡罗实验也进一步证实了贝叶斯误差估计器在 RMS 性能上始终优于留出法误差估计器。以下是两者比较的表格:
| 误差估计方法 | RMS 界限特点 |
| — | — |
| 贝叶斯 MMSE 误差估计器 | 始终低于留出法界限,$RMS(\hat{\varepsilon}) \leq \sqrt{\frac{1}{4n}}$ |
| 留出法 | 样本量 $m$ 趋近于 $n$ 时,界限收敛到贝叶斯估计界限 |
流程总结
为了更清晰地展示贝叶斯MMSE误差估计的过程,以下是一个 mermaid 格式的流程图:
graph LR
A[确定特征 - 标签分布情况] --> B{分布已知?}
B -- 是 --> C[无分类器设计和误差估计问题]
B -- 否 --> D{有先验知识?}
D -- 否 --> E[无有效界限或界限过宽]
D -- 是 --> F[设定先验分布]
F --> G[寻找贝叶斯 MMSE 误差估计器]
G --> H[计算样本条件 MSE]
H --> I[根据不同分类情况计算后验矩]
I --> J[得到误差估计和 MSE]
J --> K[进行实验验证性能]
总结
贝叶斯MMSE误差估计器在误差估计领域具有重要的理论和实际应用价值。它通过合理利用先验知识,在多种情况下能够提供更准确的误差估计。在离散分类问题中,通过引入狄利克雷先验和变量变换,能够得到后验分布和后验矩的精确表达式。实验结果表明,贝叶斯MMSE误差估计器在均方根误差性能上优于重代入法、留一法和留出法等传统方法,尤其在小样本或区间数量较多、中等至高贝叶斯误差和小样本量的情况下表现更佳。同时,在一定条件下,它的 RMS 界限也更优。不过,在使用时需要根据具体情况选择合适的先验分布,以充分发挥其优势。
超级会员免费看
963

被折叠的 条评论
为什么被折叠?



