Softmax？何方神圣？

最新推荐文章于 2025-04-25 17:27:05 发布

原创

最新推荐文章于 2025-04-25 17:27:05 发布 · 置顶 · 556 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #神经网络

本文介绍了Softmax算法，它在神经网络中用于多分类问题。通过解释Softmax层的工作原理，包括线性运算、指数运算和归一化过程，帮助理解如何将神经网络的输出转换为概率分布。最后，通过实例展示了Softmax激活函数的计算过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天，我们来一起学习一下传说中的Softmax算法。

Introduction 引入

拿目标检测或者图像识别来说。
比方说我们要识别小猫，小狗和小鸡，分别用数字“1”，“2”，“3”来表示，其他类别的用“0”来表示。

小猫 1

小狗 2

小猫 1

小狗 2

小鸡 3

奶牛 0

我们用大写的C来表示类别的数目：
$C=\#class=4$
在我们这个例子中，有4个类别，我们将搭建一个输出层神经元数目为4的神经网络，如下图所示：
在这里插入图片描述
最后一层，也就是输出层，其神经元数目，我们用 $n^{[L]}$ 来表示，因为输出结果有4个类别，所以 $n^{[L]}=4$ 。

用红色框起来的输出层，每一个圆圈代表一个输出神经元。
我们可以假设第一个神经元是其他类型“0”，在给定X的输入下的输出：其他类型用 $P (其他 ∣ X)$ 表示，第二个是小猫 $P (小猫 ∣ X)$ ，第三个是小猫 $P (小狗 ∣ X)$ ，第四个是小猫 $P (小鸡 ∣ X)$ 。
输出 $y^\hat{y}$ 是一个 $4×14\times1$ 的向量。

Softmax Layer 柔性最大值传输函数层

在这里插入图片描述
现在，我们假设最后一层是L层，那么利用《神经网络和深度学习——迈克尔尼尔逊》中的关于权值和阈值的线性运算操作，我们可以得到：
$z^{[L]}=ω^{[L]}a^{[L]}+b^{[L]}$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。