原本是用来柔化输出值,减小值之间的差。
p[i]=exp(y[i]);
S是所有p[i]的和;
但是当我们需要 L=p[i]/S,而全体p[i]都是0,就会报错,所以实际中我们采用的是:
p[i]=exp(y[i]-max_y_i);
用来归一化p[i]到0~1之间.
论文在此:http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf,p1146
本文探讨了在机器学习中概率归一化过程中的常见问题,特别是当所有概率值为零时如何避免错误,并通过使用指数函数来解决这一问题。详细解释了归一化过程中的数学原理及其实现方法。
原本是用来柔化输出值,减小值之间的差。
p[i]=exp(y[i]);
S是所有p[i]的和;
但是当我们需要 L=p[i]/S,而全体p[i]都是0,就会报错,所以实际中我们采用的是:
p[i]=exp(y[i]-max_y_i);
用来归一化p[i]到0~1之间.
论文在此:http://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf,p1146
164
9716
2088

被折叠的 条评论
为什么被折叠?