机器学习中的概率分布与Softmax函数深度解析
1. 概率分布基础
在机器学习里,概率分布指的是预测标签对应的数值总和为100%。不过,这并不意味着每个数值都能准确反映模型预测的实际置信度。以神经网络、逻辑回归等判别式监督学习算法为例,其主要任务是依据特征对标签进行区分,而非明确自身预测的置信程度。
神经网络最后一层输出的原始分数,体现了网络对预测结果的区分。这些原始分数可能是任意实数,具体取决于模型参数。一般而言,多数模型容易过度自信,即对最可能的标签给出的分数高于其实际概率;但在处理稀有数据时,模型可能信心不足。所以,这些算法输出的分数通常需要转换,以更接近真实的置信度。
在不同的机器学习库中,概率分布可能有不同的称呼。同时,像“分数”“置信度”和“概率”这些术语,在开源库和商业库中常被混用,甚至同一库内的使用也可能缺乏一致性。例如,在开发AWS的自然语言处理服务Amazon Comprehend时,经过讨论,最终决定使用“分数”而非“置信度”,因为系统输出的数值不符合严格统计学意义上的置信度定义。然而,AWS的计算机视觉服务Amazon Rekognition在预测图像标签时仍使用“置信度”这一表述。
2. Softmax函数概述
对于生成式监督学习算法(如多数贝叶斯算法),算法会对每个标签进行显式建模,因此可以直接从模型中读取置信度。不过,这些置信度依赖于数据底层分布(如正态分布)和每个标签的先验概率假设。
目前,在常用的机器学习库中,很难直接从判别式模型获取准确概率的生成式方法。更多时候,我们会使用Softmax算法生成概率分布。
Softmax函数常用于将神经网络的预测结果转换为0
超级会员免费看
订阅专栏 解锁全文
776

被折叠的 条评论
为什么被折叠?



