机器学习：Softmax函数简介

最新推荐文章于 2025-03-18 12:10:32 发布

courniche

最新推荐文章于 2025-03-18 12:10:32 发布

阅读量631

点赞数 13

文章标签：机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/courniche/article/details/145143013

版权

Softmax函数是机器学习和深度学习中常用的一种激活函数，尤其在多分类任务中用于将模型输出转换为概率分布。

Softmax函数的定义

假设一个神经网络的输出层有 $n$ 个神经元，它们的输出（未归一化的得分）是 $z_{1},z_{2},\cdots ,z_{n}$ 。Softmax函数将这些输出转换为概率分布，满足以下条件：

所有输出值都在 $\left [ 0,1 \right]$ 范围内。
所有输出值的总和为 1。

Softmax函数的公式为： $\sigma (z_{i})=\frac{e^{z_{i}}}{\sum_{j=1}^{n}e^{z_{j}}}$

其中：

$z_{i}$ 是第 $i$ 个输出的原始得分。
$\sigma (z_{i})$ 是经过Softmax处理后的第 $i$ 个类别的概率。
$\sum_{j=1}^{n}e^{z_{i}}$ 是归一化因子，确保概率总和为 1。

Softmax的性质

非负性：每个输出值都是非负数，即 $\sigma (z_{i})\geq 0$ 。
归一化：所有输出值的总和为 1，即 $\sum_{i=1}^{n}\sigma (z_{i})=1$ 。
指数放大：对输入值较大的类别，Softmax会放大其概率；对较小的值，概率被压缩。这种性质使得Softmax函数对类别之间的相对差异更加敏感。

Softmax的应用场景

分类问题：
- 在多分类问题中，Softmax将模型输出的未归一化得分转换为每个类别的概率。
- 通常与交叉熵损失函数结合使用，以衡量预测分布与真实分布之间的差异。
注意力机制：
- 在自然语言处理任务中，Softmax函数常用于计算注意力权重，决定模型应该关注哪些部分的输入。
语言模型：
- Softmax用来预测词汇表中每个单词的概率。

Softmax的优缺点

优点：

将模型输出转换为概率分布，便于解释和分析。
能够放大类别之间的差异，提高预测的明确性。

缺点：

对数值范围敏感：当输入的值较大时，容易发生数值溢出问题（可以通过减去最大值来缓解）。
对类别间关联的处理能力有限：所有类别的概率是联动的，当一个类别的概率增加时，其他类别的概率必须减少。

Softmax与Sigmoid的对比

特性	Softmax	Sigmoid
用途	多分类问题	二分类问题或多标签问题
输出范围	每个类别概率之和为1	每个输出值独立，范围为[0, 1]
结果解释	概率分布，适合单标签分类	适合独立事件的概率计算

Softmax函数的核心思想是将未归一化的输出值映射到概率分布，是多分类任务中的重要工具。通过其指数放大的特性，Softmax在机器学习模型中广泛应用。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

courniche 鼓励就是动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。