李航机器学习方法之逻辑斯谛回归

文章介绍了逻辑斯谛回归的概念,包括其从广义线性模型的角度如何推导,重点讲述了逻辑斯谛函数(sigmoid函数)的作用。模型特点是处理非线性关系,并且参数估计采用最大似然估计方法。在二项分布假设下,通过梯度下降等优化算法求解权重参数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.logistic函数的推导

2.广义线性模型

y y y非线性,如果有函数 g g g,使得 g ( y ) = x ⃗ ⋅ β ⃗ + α g(y)=\vec x \cdot \vec \beta + \alpha g(y)=x β +α,则称之为广义的线性模型。
y = F ( x ) = 1 1 + e − x y=F(x)=\frac{1}{1+e^{-x}} y=F(x)=1+ex1(逻辑斯谛分布又称为激活函数sigmoid,关于点(0,0.5)对称),所以它是一个分布函数,对它求导就是概率密度函数,求反函数 x = − log ⁡ ( 1 y − 1 ) x=-\log(\frac{1}{y}-1) x=log(y11),即: g ( y ) = log ⁡ ( y 1 − y ) g(y)=\log (\frac{y}{1-y}) g(y)=log(1yy),进一步: log ⁡ ( y 1 − y ) = x ⃗ ⋅ β ⃗ + α \log(\frac{y}{1-y})=\vec x \cdot \vec \beta +\alpha log(1yy)=x β +α,最后: y = e x ⃗ ⋅ β ⃗ + α 1 + e x ⃗ ⋅ β ⃗ + α y=\frac{e^{\vec x \cdot \vec \beta + \alpha}}{1+e^{\vec x \cdot \vec \beta + \alpha}} y=1+ex β +αex β +α

3.逻辑斯谛回归特点

  • 该模型的输入和输出存在非线性的关系。
  • 该模型的输入可以是连续的也可以是离散的。如分段函数,logistic函数将分段函数变成了连续函数
  • 该模型的参数估计用最大似然估计。

4.参数估计

最早假设它是二项分布: P ( Y ) = { 1 − p , Y = 0 p , Y = 1 = ( 1 − p ) 1 − Y p Y P(Y)=\begin{cases}1-p,&Y=0 \\ p,&Y=1\end{cases}=(1-p)^{1-Y}p^Y P(Y)={1p,p,Y=0Y=1=(1p)1YpY

P ( Y = y i ∣ x i ) = ( 1 − p i ) 1 − y i p i y i P(Y=y_i| x_i)=(1-p_i)^{1-y_i}p_i^{y_i} P(Y=yixi)=(1pi)1yipiyi,其中 p i = e w x i 1 + e w x i p_i=\frac{e^{wx_i}}{1+e^{wx_i}} pi=1+ewxiewxi
所以对于 n n n个样本 { ( x 1 , y 1 ) , ⋯   , ( x n , y n ) } \{(x_1,y_1),\cdots,(x_n,y_n)\} {(x1,y1),,(xn,yn)},同时发生的可能性为 ∏ i = 1 n ( 1 − p i ) 1 − y i p y i = L ( w ) \prod_{i=1}^n(1-p_i)^{1-y_i}p^{y_i}=L(w) i=1n(1pi)1yipyi=L(w)
将乘法变成加减, log ⁡ ∏ i = 1 n [ ( 1 − p i ) 1 − y i p i y i ] = ∑ i = 1 n [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] = ∑ i = 1 n [ y i log ⁡ p i 1 − p i + log ⁡ ( 1 − p i ) ] \begin{aligned}\log \prod_{i=1}^n[(1-p_i)^{1-y_i}p_i^{y_i}]&=\sum_{i=1}^n[y_i\log p_i+(1-y_i)\log(1-p_i)]\\&=\sum_{i=1}^n[y_i\log \frac{p_i}{1-p_i}+\log(1-p_i)]\end{aligned} logi=1n[(1pi)1yipiyi]=i=1n[yilogpi+(1yi)log(1pi)]=i=1n[yilog1pipi+log(1pi)],很明显; log ⁡ p i 1 − p i = w ⋅ x i \log \frac{p_i}{1-p_i}=w\cdot x_i log1pipi=wxi,并且 log ⁡ ( 1 − p i ) = − log ⁡ [ e x p ( w ⋅ x i ) + 1 ] \log(1-p_i)=-\log[exp(w\cdot x_i)+1] log(1pi)=log[exp(wxi)+1],最终就是: ∑ i = 1 n [ y i ⋅ w ⋅ x i − log ⁡ [ e x p ( w ⋅ x i ) + 1 ] ] \sum_{i=1}^n[y_i\cdot w\cdot x_i-\log[exp(w\cdot x_i)+1]] i=1n[yiwxilog[exp(wxi)+1]]
最终我们的目的就是通过已知的 ( x i , y i ) (x_i,y_i) (xi,yi)求出 w w w,求法有:

  • 遍历法,把所有可能的 w w w都代入,求出 a r g m a x L ( w ) argmax L(w) argmaxL(w)最大值
  • 显示解,通过公式推导出关于 w w w的公式,代入 ( x i , y i ) (x_i,y_i) (xi,yi)计算
  • 使用梯度下降法或牛顿法等优化算法进行迭代运算。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值