机器学习基础篇-逻辑回归和多分类问题

本文深入探讨了逻辑回归及其在二分类问题中的应用,介绍了sigmoid函数在模型中的作用和损失函数的定义。此外,还扩展到softmax回归,它是逻辑回归的多分类版本,用于处理多个类别输出的概率。讲解了softmax激活函数的计算方式以及多分类损失函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Logistic Regression

定义:给定样本x的特征向量,输出为正样本时的概率p(y=1∣x)p(y=1|x)p(y=1x),同时有负样本的概率为p(y=0∣x)=1−p(y=1∣x)p(y=0|x) = 1-p(y=1|x)p(y=0x)=1p(y=1x)。在逻辑回归中,可学习的参数为W和b。

公式:
p(y=1∣x)=σ(WTx+b)=(1+e−WTx−b)−1 p(y=1|x)=\sigma(W^Tx+b)=(1+e^{-W^Tx-b})^{-1} p(y=1x)=σ(WTx+b)=(1+eWTxb)1

如下图所示,x轴为线性回归的值WT+bW^T+bWT+b,y轴的值是x轴的值通过了sigmoid变换得到的p(y=1∣x)p(y=1|x)p(y=1x)
在这里插入图片描述

损失函数:
L(y^i,yi)=−[yilogy^i+(1−yi)log(1−y^i)] L(\widehat{y}^i,{y}^i) = -[{y}^ilog\widehat{y}^i+(1-y^i)log(1-\widehat{y}^i)] L(yi,yi)=[yilogyi+(1yi)log(1yi)]

  • y^i\widehat{y}^iyi是预测值
  • yi{y}^iyi是真实值

对于整个训练数据,有:
J(W,b)=1m∑i=1mL(y^i,yi) J(W,b)=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,y^i) J(W,b)=m1i=1mL(yi,yi)

  • m为数据集的样本数m为数据集的样本数m

综上所述,最小化损失函数即最大化样本发生的可能性
由公式,样本发生的概率为
LogLikelihood=∑i=1mlogP(yi∣xi)=∑i=1mlog(y^y(1−y^)1−y)=−∑i=1mL(y^i,yi) LogLikelihood=\sum^m_{i=1}logP(y^i|x^i)=\sum_{i=1}^mlog(\widehat{y}^y(1-\widehat{y})^{1-y})=-\sum_{i=1}^mL(\widehat{y}^i,y^i) LogLikelihood=i=1mlogP(yixi)=i=1mlog(yy(1y)1y)=i=1mL(yi,yi)

Multi-Class Classification (Softmax Regression)

在这里插入图片描述

softmax回归是逻辑回归(二分类)的一种推广,专门处理多分类问题。
在上图中,这是一个三分类的神经网络。最后一层是通过softmax激活函数进行转换输出,输出的值为每个class发生的概率。

softmax激活函数如下所示:
z∣L∣=[z0∣L∣,z1∣L∣,z2∣L∣]a∣L∣=[ez0∣L∣ez0∣L∣+ez1∣L∣+ez2∣L∣,ez1∣L∣ez0∣L∣+ez1∣L∣+ez2∣L∣,ez2∣L∣ez0∣L∣+ez1∣L∣+ez2∣L∣]=[p(class=0∣x),p(class=1∣x),p(class=2∣x)]=[y0,y1,y2] \begin{aligned} &z^{|L|}=[z_0^{|L|},z_1^{|L|},z_2^{|L|}]\\ &a^{|L|}=[\frac{e^{z_0^{|L|}}}{e^{z_0^{|L|}}+e^{z_1^{|L|}}+e^{z_2^{|L|}}},\frac{e^{z_1^{|L|}}}{e^{z_0^{|L|}}+e^{z_1^{|L|}}+e^{z_2^{|L|}}},\frac{e^{z_2^{|L|}}}{e^{z_0^{|L|}}+e^{z_1^{|L|}}+e^{z_2^{|L|}}}]\\ &=[p(class=0|x),p(class=1|x),p(class=2|x)]\\ &=[y_0,y_1,y_2] \end{aligned} zL=[z0L,z1L,z2L]aL=[ez0L+ez1L+ez2Lez0L,ez0L+ez1L+ez2Lez1L,ez0L+ez1L+ez2Lez2L]=[p(class=0x),p(class=1x),p(class=2x)]=[y0,y1,y2]

损失函数:
LossFunction=1m∑i=1mL(y^i,yi)L(y^i,y)=−∑j3yjilogy^ji LossFunction=\frac{1}{m}\sum^m_{i=1}L(\widehat{y}^i,y^i)\\ L(\widehat{y}^i,y)=-\sum^3_jy^i_jlog\widehat{y}^i_j LossFunction=m1i=1mL(yi,yi)L(yi,y)=j3yjilogyji

  • m为样本数,j为第j个class。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.Wiggles

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值