【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】Softmax回归

Softmax回归主要用于解决多类问题(类别数>2),可以看作Logistic回归在多分类问题上的一种扩展

Softmax函数

对于K个标量 x 1 , x 2 , ⋯   , x K x_1,x_2,\cdots,x_K x1,x2,,xK
s o f t m a x ( x K ) = exp ⁡ ( x K ) ∑ i = 1 K exp ⁡ ( x i ) softmax(x_K)=\frac{\exp(x_K)}{\sum_{i=1}^{K}\exp(x_i)} softmax(xK)=i=1Kexp(xi)exp(xK)
其中,指数项>0,分母>=分子,因此结果必定属于区间 ( 0 , 1 ) (0,1) (0,1),且 ∑ K s o f t m a x ( x K ) = 1 \sum_Ksoftmax(x_K)=1 Ksoftmax(xK)=1。也就是说,K个标量在通过softmax函数之后,可以转换成具有K个取值的分布,每个取值可以看作对应的打分,标量值越大对应的打分越高。
在这里插入图片描述

Softmax回归

目标类别 y = c y=c y=c的条件概率为:
p θ ( y = c ∣ x ) = s o f t m a x ( w c T x ) = exp ⁡ ( w c T x ) ∑ c ′ = 1 C exp ⁡ ( w c ′ T x ) \begin{aligned} p_\theta(y=c\mid x) &=softmax(w_c^Tx)\\ &=\frac{\exp(w^T_cx)}{\sum_{c'=1}^C\exp(w^T_{c'}x)} \end{aligned} pθ(y=cx)=softmax(wcTx)=c=1Cexp(wcTx)exp(wcTx)
用向量表示:
y ^ = s o f t m a x ( W T x ) = exp ⁡ ( W T x ) 1 C T exp ⁡ ( W T x ) \begin{aligned} \hat{y} &=softmax(W^Tx)\\ &=\frac{\exp(W^Tx)}{1_C^T\exp(W^Tx)} \end{aligned} y^=softmax(WTx)=1CTexp(WTx)exp(WTx)
其中, y ^ ∈ R C \hat{y}\in\mathbb{R}^C y^RC(C维向量)为所有类别的预测条件概率组成的向量, W ∈ R D × C W\in\mathbb{R}^{D\times C} WRD×C为所有判别函数对应的权重组成的向量, 1 C T 1_C^T 1CT为C维的全为1的向量,与后项内积来表示后项所有元素的加和。

交叉熵损失:
H ( p r , p θ ) = − ∑ y = 1 C p r ( y ∣ x ) log ⁡ p θ ( y ∣ x ) H(p_r,p_\theta)=-\sum_{y=1}^Cp_r(y\mid x)\log p_\theta(y\mid x) H(pr,pθ)=y=1Cpr(yx)logpθ(yx)
这里需要与logistic回归区别一下,在使用logistic回归解决多分类问题时,主要取决于不同类别之间是否互斥,等同于将多分类问题转换成了多次二分类问题。而softmax回归可以同时计算多个类别的打分,取得分最高为最终的分类。真实概率 p r p_r pr和预测概率负对数(熵、自信息量)如下所示:
在这里插入图片描述

最终要令二者内积后的交叉熵最小,同时根据熵(自信息)的概念,当真实概率最大时对应的自信息量最小,这也就意味着当熵最小时对应的真实概率越大,越可能是最终的预测结果。如上图中,类别为1的熵 − log ⁡ p θ ( y = 1 ∣ x ) → 0 -\log p_\theta(y=1\mid x)\rightarrow 0 logpθ(y=1x)0,则对应 p r ( y = 1 ∣ x ) → m a x p_r(y=1\mid x)\rightarrow max pr(y=1x)max
用向量来表示交叉熵损失:
H ( y , y ^ ) = − y T log ⁡ y ^ ,      y = [ I ( 1 = c ) , I ( 2 = c ) , ⋯   , I ( C = c ) ] T H(y,\hat{y})=-y^T\log\hat{y},\ \ \ \ y=[I(1=c),I(2=c),\cdots,I(C=c)]^T H(y,y^)=yTlogy^,    y=[I(1=c),I(2=c),,I(C=c)]T
其中,y表示真实的分类,一般是one-hot向量,只有对应预测分类为1,其他地方为0。举例来说,若一个三分类问题,y属于分类3,则对应的 y = [ 0 0

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Don't move

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值