softmax理解
1、softmax由来
softmax是根据hardmax得来,hardmax: z=max(x,y),而softmax是 z = l o g ( e x + e y ) z=log(e^x+e^y) z=log(ex+ey)当x>>y时softmax下的 z=x.
为了更加清楚理解:我们固定y=1,比较一下,softmax与hardmax图像:


由图像可以知道softmax比hardmax平滑(大概猜出为什么叫softmax了),这给了它特性,可导,可导对神经网络更新参数非常重要。同时softmax让相互比较的数都指数化,这会让提高分数之间的差异(
x
=
10
,
y
=
20
,
y
−
x
=
10
;
e
20
−
e
10
=
485143169
x=10,y=20,y-x=10;e^{20}-e^{10}=485143169
x=10,y=20,y−x=10;e20−e10=485143169)让最大值占主导地位。

softmax函数起源于hardmax,它提供了一个平滑的概率分布,尤其在神经网络中,由于其可导性,对于参数更新至关重要。softmax将数值指数化,增强最大值的优势,常用于多分类问题中的概率输出。文章涵盖了softmax的起源、常见公式及推导过程。
1135

被折叠的 条评论
为什么被折叠?



