softmax理解
1、softmax由来
softmax是根据hardmax得来,hardmax: z=max(x,y),而softmax是 z = l o g ( e x + e y ) z=log(e^x+e^y) z=log(ex+ey)当x>>y时softmax下的 z=x.
为了更加清楚理解:我们固定y=1,比较一下,softmax与hardmax图像:
由图像可以知道softmax比hardmax平滑(大概猜出为什么叫softmax了),这给了它特性,可导,可导对神经网络更新参数非常重要。同时softmax让相互比较的数都指数化,这会让提高分数之间的差异(
x
=
10
,
y
=
20
,
y
−
x
=
10
;
e
20
−
e
10
=
485143169
x=10,y=20,y-x=10;e^{20}-e^{10}=485143169
x=10,y=20,y−x=10;e20−e10=485143169)让最大值占主导地位。