第5章 评估假设
对假设的精度进行经验评估是机器学习中的基本问题。
5.1 估计假设精度
5.1.1 样本错误率和真实错误率
样本错误率(Sample Error):假设h关于目标函数
f 和数据样本S的样本错误率(标记为errorS(h) 为
errorS(h)≡1n∑x∈Sδ(f(x),h(x))其中,n为
S 中样例的数量,而δ(f(x),h(x))在f(x)≠h(x)时为1,否则为0。真实错误率(True Error):假设h关于目标函数
f 和分布D的真实错误率(标记为errorD(h) 为h按D 分布随机抽取实例被误分类的概率:
errorD(h)≡Prx∈D[f(x)≠h(x)]
5.1.2 离散值假设的置信区间
若要基于某个离散值假设 h 在样本
- 样本S包含
n 个样例,它们的抽取按照概率分布D,抽取过程是相互独立的,且不依赖于h; n≥30 - 假设h在这
n 个样例上犯了r个错误(errorS(h)=rn );
则,可断言:
- 没有其他信息的话,errorD(h) 最可能的值为 errorS(h) ;
- 有大约95%的可能性,真实错误率 errorD(h) 处于下面的区间内:
errorS(h)±1.96errorS(h)(1−errorS(h))n−−−−−−−−−−−−−−−−−−−−√
常数1.96是由95%这一置信度确定的(见《标准正态分布双侧上分位点表》)。
定义 zn 为计算 N% 置信区间是的常数。计算 errorD(h) 的 N% 置信区间的一般表达式为:
5.2 统计理论基础
5.2.1 二项分布
离散值假设 h 在
期望:E[X]=np
标准差:σX=np(1−p)−−−−−−−−√
对于足够大的 n,二项分布很接近有同样均值和方差的正态分布。建议只在
5.2.2 估计偏差(Estimator Bias)
针对任意参数 p 的估计量
若估计偏差为0,称 Y 为
5.2.3 置信区间(Confidence Interval)
参数 p 的
如果随机变量
5.2.4 双侧与单侧边界
由一个有下界 L 和上界
5.3 推导置信区间的一般方法
一般包含一下步骤:
1. 确定基准总体中要估计的参数
2. 定义一个估计量,应选择最小方差的无偏估计量
3. 确定控制估计量的概率分布,包括其均值和方差
4. 通过寻找阈值(上界、下界)确定置信区间
5.4 学习算法比较
假定有 LA 和 LB 两个算法,要确定为了学习一特定的目标函数 f ,平均哪个算法更好。即从一基准实例分布
其中,L(S)表示在给定训练数据的样本S时,学习算法
实际的学习算法比较中,只有一个有限的样本D0 。用下述方法来估计两个算法的错误率差异:
1. 将可用数据 D0 分隔成 k 个相同大小的不相交子集
2. 令 i 从1到
Si←{D0−Ti}
hA←LA(Si),hB←LB(Si)
δi←errorTi(hA)−errorTi(hB)
3. 计算
δ¯ 可以看作是对 ES⊂D0[errorD(LA(S))−errorD(LB(S))] 的估计,其近似的 N% 置信区间可表示为:
其中,sδ¯ 代表对 δ¯ 所服从的概率分布的标准差的估计,