机器学习实验:测量、评估与解读
1. 机器学习实验概述
机器学习既是一门计算学科,也是一门实践学科。尽管我们能在特定假设下证明某个学习算法会收敛到理论上的最优模型,但仍需实际数据来探究,比如这些假设在特定领域中的满足程度,或者收敛速度是否足以具备实际应用价值。
机器学习实验就是在一个或多个数据集上评估或运行特定模型或学习算法,获取一系列测量值,并以此回答我们感兴趣的问题。常见问题如下:
- 模型 m 在来自领域 D 的数据上表现如何?
- 这些模型中哪个在来自领域 D 的数据上表现最佳?
- 学习算法 A 生成的模型在来自领域 D 的数据上表现怎样?
- 这些学习算法中哪个在来自领域 D 的数据上能给出最佳模型?
2. 测量指标的选择
选择合适的评估指标至关重要,它应反映我们对实验目标的假设以及模型可能的运行环境。以下是一些常见的评估指标及其适用场景:
|评估指标|适用场景|
| ---- | ---- |
|准确率(Accuracy)|如果测试集中的类别分布能代表模型部署的运行环境,准确率是一个不错的评估指标。|
|平均召回率(Average Recall)|当所有类别分布的可能性相等时,平均召回率是首选的评估指标。|
|精确率(Precision)和召回率(Recall)|将关注点从分类准确率转移到忽略真负例的性能分析上。|
|预测正例率(Predicted Positive Rate)和AUC|在排序场景中是相关的指标。|
下面通过具体例子详细说明:
- 未知类别分布下的预期准确率 :
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



