本文章参考deeplearning 一书第六章6.2.2.2 Sigmoid Units for Bernoulli Output Distributions
要建立一个模型,不可或缺的有:1、数据,2、损失函数,3、模型算法,4、优化算法。
今天我们讨论下损失函数这块。损失函数的设计,与模型最后输出的内容是有一定关联的。所以我们今天讨论二分类问题的损失函数时,主要讲两方面,一方面是模型的输出,一方面是最大似然估计。
sigmoid输出值 和 伯努利概率之间的关系
就二分类问题而言,我们现在都了解,一般情况下计算出之后,会将σ(
)作为模型的输出,并且当作是P(y=1|x) (这里的P(y=1|x) 是伯努利分布中随机变量为1的概率)。那么σ(
)和 P(y=1|x)之间有怎样的关系呢?deeplearning一书中的6.2.2.2给出了推导。
以下都以书中的公式为准。
一个sigmoid output unit 是这样定义的:(这里的h指的是隐藏层单元,这里的σ就是 logistic sigmoid function,有忘记公式的可以搜一下)
那么在线性层输出