理解、评估和提升监督式机器学习模型性能
在监督式机器学习中,我们常常期望模型在适应训练数据后,能对新的、未见过的数据做出良好的预测。但这真的能实现吗?这是一个关乎机器学习实际应用价值的重要问题。接下来,我们将深入探讨相关概念和方法,以更好地评估、改进和选择不同的监督式机器学习方法。
1. 预期新数据误差 $E_{new}$:生产环境中的性能
为了理解模型在新数据上的表现,我们首先引入一些概念和符号。
1.1 误差函数
定义误差函数 $E(\hat{y}, y)$,它用于衡量分类或回归的目标达成情况。该函数将预测值 $\hat{y}(x)$ 与实际测量数据点 $y$ 进行比较,若 $\hat{y}(x)$ 是 $y$ 的良好预测,则返回较小的值(可能为零),否则返回较大的值。
常见的误差函数有:
- 误分类误差 :
- 对于分类问题,误分类误差定义为:
- $E(\hat{y}, y) \triangleq I{\hat{y} \neq y} = \begin{cases} 0, & \text{if } \hat{y} = y \ 1, & \text{if } \hat{y} \neq y \end{cases}$
- 计算平均误分类误差时,通常称为误分类率,而 $1$ 减去误分类率即为准确率。不过,对于不平衡或不对称问题,其他方面可能更为重要。
- 平方误差 :
- 对于回归问题,平方误差定义为:
- $E(\hat{y}, y) \triangleq (\hat{y} -
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



