机器学习中的不确定性采样:原理、策略与评估
在机器学习领域,不确定性采样是一种重要的主动学习方法,它能帮助我们更有效地利用数据,提升模型性能。本文将深入探讨不确定性采样的相关概念、策略以及评估方法。
1. 两种不确定性:偶然不确定性与认知不确定性
在机器学习中,我们常提到偶然不确定性(aleatoric uncertainty)和认知不确定性(epistemic uncertainty)。这两个术语虽源于哲学文献,但在机器学习领域有其特定含义。
认知不确定性指的是单个模型预测中的不确定性,而偶然不确定性则是多个预测之间的不确定性,在近期文献中,蒙特卡罗丢弃法(Monte Carlo dropouts)常被用于衡量这种不确定性。
从历史角度看,偶然意味着内在随机性,认知意味着知识的缺乏,但这些定义仅在无法标注新数据的机器学习场景中有意义,这种情况在学术研究之外较为罕见。所以,在阅读机器学习文献时,我们应关注计算不确定性的方法,而非其深层哲学含义。
以下是这两种不确定性的差异示例:
| 示例 | 认知不确定性 | 偶然不确定性 |
| ---- | ---- | ---- |
| 示例一 | 靠近所有五次预测的决策边界,具有高认知不确定性 | 决策边界聚集在一起,具有低偶然不确定性 |
| 示例二 | 远离大多数决策边界,具有低认知不确定性 | 与决策边界的距离变化大,具有高偶然不确定性 |
| 示例三 | 靠近平均决策边界 | 所有边界之间的距离差异大,两种不确定性都高 |
2. 多标签和连续值分类中的不确定性计算
- 多
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



