Logistic 回归浅析()

本文深入探讨了Logistic回归的基本原理及其在分类任务中的应用。通过数学建模,解释了如何根据特征值预测样本类别,并详细阐述了如何通过极大似然估计法求解参数。介绍了Sigmoid函数的作用及梯度上升算法在求解过程中的应用。

不忘初心,方得始终

学习Logistic回归,看了许多讲解一直不知所云,或者看不下去。

第一部分

目的:根据 y 的特征值 x1...xnx_1...x_nx1...xn,判断 y 属于class1 还是class0
方法:给每一个特征值分配一个权重,根据得分来判断 y 是属于 0,1类,即
z=θ0∗x0+θ1∗x1+...+θn∗xn=θT∗Xz=\theta_0*x_0 + \theta_1*x_1+...+\theta_n*x_n = \theta^T*Xz=θ0x0+θ1x1+...+θnxn=θTX
可以自己划定一个值 N,N取决于 θ0...θn\theta_0...\theta_nθ0...θn
当 y > N 时,y ∈\in class1
当 y < N 时,y ∈\in class0

也就是说,当我们有了 θ0...θn\theta_0 ... \theta_nθ0...θn 之后,当每次来一个yiy_iyi 根据它的x0...xnx_0 ... x_nx0...xn 带入公式,即可求得 yiy_iyi 的类别。

其中有两个问题
1、z=∑θi∗xiz=\sum \theta_i * x_iz=θixi 取值[−∞,+∞][-\infty , +\infty][,+],我们希望 z 的取值在 [ 0 , 1 ],并且这个函数有较好的阶跃的性质,即在短距离内从 0 跳转到1。这样在代入公式的时候得到的值就在0-1之间,并且大部分情况下都远离0.5。(原则上,我认为这不是一个问题)

2、如何得到 [θ0...θn][\theta_0...\theta_n][θ0...θn]


第二部分

关于第一个问题
Sigmoid函数:
σ(z)=11+e−z\sigma(z) = \frac{1}{1+e^{-z}}σ(z)=1+ez1
现在我们将问题转换为:根据已知的训练集 Y = {y0...ymy_0...y_my0...ym},求一组 [θ0...θn][\theta_0...\theta_n][θ0...θn] 使得求出的 z 代入上式后,对于
yi∈class0y_i \in class0yiclass0σ(zi)&lt;0.5\sigma(z_i) &lt; 0.5σ(zi)<0.5
yi∈class1y_i \in class1yiclass1σ(zi)&gt;0.5\sigma(z_i) &gt; 0.5σ(zi)>0.5。其中zi=θT∗Xiz_i=\theta^T*X_izi=θTXi

举例来说:
yi=[x0i,x1i,x2i,...,xni]∈class1⇐⇒σ(θT∗Xi)=11+e−(θ0∗x0i+θ1∗x1i+...+θn∗xni)=11+e−(θT∗Xi)&gt;0.5y_i=[x_0^i,x_1^i,x_2^i,...,x_n^i] \in class1\Leftarrow \Rightarrow \sigma(\theta^T*X_i)=\frac{1}{1+e^{-(\theta_0 * x_0^i + \theta_1 * x_1^i +...+ \theta_n * x_n^i)}} = \frac{1}{1+e^{-(\theta^T*X_i)}} &gt; 0.5 yi=[x0i,x1i,x2i,...,xni]class1σ(θTXi)=1+e(θ0x0i+θ1x1i+...+θnxni)1=1+e(θTXi)1>0.5

第二个问题
使用极大似然估计:
现有已知结果的集合 Y={y0...ym}Y = \{ y_0...y_m\}Y={y0...ym}
σ(θT∗Xi)\sigma(\theta^T*X_i)σ(θTXi) 记为 h(Xi)h(X_i)h(Xi)

p(yi=1∣Xi;θ)=1−h(Xi)p(y_i =1|X_i;\theta)=1-h(X_i)p(yi=1Xi;θ)=1h(Xi)
p(yi=0∣Xi;θ)=h(Xi)p(y_i =0|X_i;\theta)=h(X_i)p(yi=0Xi;θ)=h(Xi)

∴p(yi∣Xi;θ)=(1−h(Xi))1−yi∗(h(Xi))yi\therefore p(y_i|X_i;\theta)=(1-h(X_i))^{1-y_i}*(h(X_i))^{y_i}p(yiXi;θ)=(1h(Xi))1yi(h(Xi))yi

现在再次重述一遍问题:
已知集合 Y={y0...ym}Y = \{ y_0...y_m \}Y={y0...ym} 中任意的 yi=[x0i,x1i,x2i,...,xni]=Xiy_i=[x_0^i,x_1^i,x_2^i,...,x_n^i] =X_iyi=[x0i,x1i,x2i,...,xni]=Xi 的类别,其中 p(yi∣Xi;θ)=(1−h(Xi))1−yi∗(h(Xi))yip(y_i|X_i;\theta)=(1-h(X_i))^{1-y_i}*(h(X_i))^{y_i}p(yiXi;θ)=(1h(Xi))1yi(h(Xi))yi,求 θ\thetaθ 的极大似然分布。

L(θ)=∏i=0m(p(yi∣Xi;θ)=∏i=0m(1−h(Xi))1−yi∗(h(Xi))yi)L(\theta)=\prod_{i=0}^m(p(y_i|X_i;\theta)=\prod_{i=0}^m(1-h(X_i))^{1-y_i}*(h(X_i))^{y_i})L(θ)=i=0m(p(yiXi;θ)=i=0m(1h(Xi))1yi(h(Xi))yi)

l(θ)=log(θ)=∑i=0m(yilog(h(Xi))+(1−yi)∗log(1−h(Xi)))l(\theta)=log(\theta)=\sum_{i=0}^m(y_ilog(h(X_i)) + (1-y_i)*log(1-h(X_i)))l(θ)=log(θ)=i=0m(yilog(h(Xi))+(1yi)log(1h(Xi)))

第三部分

求解 l(θ)l(\theta)l(θ)
梯度上升算法:其实就是求导,不过是多次求导而已(也许是这样吧)
##未完(不一定续)。。。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值