机器学习中的不确定性采样:原理、策略与评估
在机器学习领域,不确定性采样是一种重要的主动学习方法,它能帮助我们更高效地利用数据,提升模型性能。本文将深入探讨不确定性采样的相关概念、方法以及评估策略。
1. 两种不确定性:偶然不确定性与认知不确定性
在机器学习中,偶然不确定性(aleatoric uncertainty)和认知不确定性(epistemic uncertainty)是两个常用的术语。虽然它们源于哲学文献,但在机器学习中,通常指的是计算不确定性的方法。
- 认知不确定性 :是指单个模型预测中的不确定性。
- 偶然不确定性 :是指多个预测之间的不确定性,在近期文献中,尤其指蒙特卡罗丢弃法(Monte Carlo dropouts)。
从历史角度看,偶然不确定性意味着内在随机性,认知不确定性意味着知识的缺乏,但这些定义仅在无法标注新数据的机器学习场景中有意义,这种情况在学术研究之外较为罕见。因此,在阅读机器学习文献时,应假定研究人员仅讨论计算不确定性的方法,而非其更深层次的哲学含义。
通过多个预测,我们不仅可以根据单个决策边界的距离,还可以根据多个决策边界的方差来预测不确定性。对于神经网络模型,与决策边界的距离变化可以通过预测标签的变化、第3.2节中涵盖的任何不确定性采样指标的变化,或每个预测的整个概率分布的变化来计算。
| 不确定性类型 | 定义 | 示例场景 |
|---|---|---|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



