sigmoid和softmax的关系

最新推荐文章于 2025-03-23 22:01:21 发布

feitianlzk

最新推荐文章于 2025-03-23 22:01:21 发布

阅读量1k

点赞数 1

分类专栏： AI

AI 专栏收录该内容

19 篇文章

订阅专栏

softmax

P (y = k) = e x p ( w T k \cdot x ) \sum k e x p ( w T k \cdot x )

$P(y=k) = \frac{exp(\mathbf w_k^T \cdot \mathbf x)}{\sum_{k}exp(\mathbf w_k^T \cdot \mathbf x)}$

sigmoid
for classes only have 0-1

P (y = 1) = e x p ( w T 1 \cdot x ) e x p ( w T 1 \cdot x ) + e x p ( w T 0 \cdot x )

$P(y=1) = \frac{exp(\mathbf w_1^T \cdot \mathbf x)}{exp(\mathbf w_1^T \cdot \mathbf x) + exp(\mathbf w_0^T \cdot \mathbf x)}$
then

P (y = 1) = 1 1 - e x p ( w T i \cdot x )

$P(y=1) = \frac{1}{1 - exp(\mathbf w_i^T \cdot \mathbf x) }$

w i = w 1 - w 0

$w_i = w_1 - w_0$
sigmoid，或者说exponential family所具有的最佳性质，即maximum entropy的性质。

进一步理解见
https://www.zhihu.com/question/35322351/answer/67193153
来源：知乎

看了一下，几乎所有的回答都只解释了“为什么可以用sigmoid”，而没有解释“为什么要用sigmoid”。虽然也有回答提到了exponential family中bernoulli的形式，但高票回答基本只说明了sigmoid的各种良好性质。若是光从这个角度解释的话，probit也具有相同的性质，为什么除了做GLM的，基本上就没人用呢？说到底源于sigmoid，或者说exponential family所具有的最佳性质，即maximum entropy的性质。虽然不清楚历史上孰先孰后，但这并不妨碍maximum entropy给了logistic regression一个很好的数学解释。为什么maximum entropy好呢？entropy翻译过来就是熵，所以maximum entropy也就是最大熵。熵原本是information theory中的概念，用在概率分布上可以表示这个分布中所包含的不确定度，熵越大不确定度越大。所以大家可以想象到，均匀分布熵最大，因为基本新数据是任何值的概率都均等。而我们现在关心的是，给定某些假设之后，熵最大的分布。也就是说这个分布应该在满足我假设的前提下越均匀越好。比如大家熟知的正态分布，正是假设已知mean和variance后熵最大的分布。回过来看logistic regression，这里假设了什么呢？首先，我们在建模预测 Y|X，并认为 Y|X 服从bernoulli distribution，所以我们只需要知道 P(Y|X)；其次我们需要一个线性模型，所以 P(Y|X) = f(wx)。接下来我们就只需要知道 f 是什么就行了。而我们可以通过最大熵原则推出的这个 f，就是sigmoid。其实前面也有人剧透了bernoulli的exponential family形式，也即是 1/ (1 + e^-z)