机器学习中的不确定性采样:模型分析与策略应用
1. 深入理解熵
熵在机器学习和信号处理中是一个重要的概念。若想深入探究熵,可以将不同的置信度代入方程的内部部分,即每个置信度乘以其自身的对数,例如 0.3 * log(0.3) 。对于这种熵的度量, P(y|x) log(P(y|x)) 的每个预测得分,在置信度约为 0.3679 时会返回最大的(负)值。与 softmax 不同,欧拉数在这里很特殊,因为 e^-1 = 0.3679 。得出这个结果的公式被称为欧拉法则,它本身是九世纪为生成亲和数而创建的 Thâbit ibn Kurrah 法则的推导。无论使用何种熵的底数,每个预测的最大(负)值都将在 0.3679 左右,这有助于理解为什么在这种情况下底数并不重要。
以下是对不同概率下熵贡献的直观理解:
- 如果概率为 1.0,模型完全可预测,熵为 0。
- 如果概率为 0.0,该数据点对熵没有贡献,因为它永远不会发生。
- 因此,在每个预测的基础上,0.0 到 1.0 之间的某个数对熵是最优的。
不过,0.3679 仅对单个概率是最优的。当为一个标签分配 0.3679 的概率时,其他所有标签只剩下 0.6431 的概率。所以,整个概率分布的最高熵,而不仅仅是单个值,总是在每个概率都相同且等于 1 除以标签数量时出现。
2. 识别不同类型模型的困惑
在机器学习中,我们很可能使用神经网络模型,但神经网络模型有许多不同的架构,还有许多其他流行的监督式机器学习算法。几乎每个机器学习库或服务都会为其中的算法返回某种形式的分数,这些
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



