神经网络分类与先验类概率:挑战与解决方案
在神经网络的应用中,多层感知器(MLP)分类问题常常会遇到与单个类别的先验概率相关的问题。当每个类别对应的训练示例数量在不同类别之间存在显著差异时,网络可能在学习较罕见类别时遇到困难。这一实际情况与理论结果不符,理论表明MLP能够近似贝叶斯后验概率,且与先验类概率无关。
1. 问题背景
理论上,当网络期望输出为1 of M且使用平方误差或交叉熵成本函数时,MLP可以近似贝叶斯后验概率。但这一结果依赖于一些假设,包括网络足够大、训练收敛到全局最小值、有无限的训练数据,以及测试集的先验类概率能在训练集中得到正确体现。
在实践中,当训练集中各类别的频率差异显著时,MLP分类会出现问题。网络可能会偏向于预测更常见的类别,导致较罕见类别的分类性能变差。例如,在语音应用中,先验概率较低的类别可能会被“忽略”。
2. 解决方法
为了解决这个问题,下面介绍几种基于类别进行缩放的方法。
- 先验缩放(Prior Scaling)
- 该方法根据先验类概率对每个类别的权重更新进行缩放。对于每个模式的梯度下降权重更新,通过调整权重更新,使得每个类别的模式的总期望更新相等。
- 缩放因子的计算公式为:$s_x = \frac{1}{p_xN_c}$,其中 $s_x$ 是与属于类别 $x$ 的模式相关的所有权重更新的缩放因子,$N_c$ 是类别数量,$p_x$ 是类别 $x$ 的先验概率。
- 为了选择介于不进行先验缩放和上述先验缩放之间的缩放程度,可以使用以下缩放规则:$s’ x = 1 - c_s + \frac{c_s}{p_x
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



