逻辑回归算法梳理(从理论到示例)

逻辑回归算法的名字里虽然带有“回归”二字,但实际上逻辑回归算法是用来解决分类问题的算法。线性回归和逻辑回归相当于一对“孪生兄弟”,本文将从二分类入手,介绍逻辑回归算法的预测函数、损失函数(成本函数)和梯度下降算法公式,然后由二分类延伸到多分类的问题,接下来介绍正则化,即通过数学的手段来解决模型过拟合问题,最后用一个乳腺癌检测的实例及其模型性能优化来结束全文。各位朋友在看这篇博客的时候,根据提示不断联想线性回归与逻辑回归的区别与联系。

1 逻辑回归算法的原理

假设有一场球赛,我们有两支球队的所有出场球员信息、历史交锋成绩、比赛时间、主客场、裁判和天气等信息,根据这些信息预测球队的输赢。假设比赛结果记为 y {y} y,赢球标记为1,输球标记为0,这就是一个典型的二元分类问题,可以用逻辑回归算法来解决。
从这个例子里可以看出,逻辑回归算法的输出 y ∈ { 0 , 1 } {y \in \{0,1}\} y{ 0,1}是个离散值,这是与线性回归算法的最大区别。

1.1 预测函数

需要找出一个预测函数模型,使其值输出在 [ 0 , 1 ] {[0,1]} [0,1]之间。然后选择一个基准值,如 0.5 {0.5} 0.5,如果算出来的预测值大于 0.5 {0.5} 0.5,就认为其预测值为1,反之则其预测值为0。我们选择 g ( z ) = 1 1 + e − z {g(z)= \frac{1}{1+e^{-z}}} g(z)=1+ez1来作为预测函数。函数 g ( z ) {g(z)} g(z)称为 S i g m o i d {Sigmoid} Sigmoid函数,也称为 L o g i s t i c {Logistic} Logistic函数。图像如下:
sigmoid
z = 0 {z=0} z=0时, g ( z ) = 0.5 {g(z)=0.5} g(z)=0.5
z > 0 {z>0} z>0时, g ( z ) > 0.5 {g(z)>0.5} g(z)>0.5,当 z {z} z越来越大时, g ( z ) {g(z)} g(z)无限接近于 1 {1} 1
z &lt; 0 {z&lt;0} z<0时, g ( z ) &lt; 0.5 {g(z)&lt;0.5} g(z)<0.5,当 z {z} z越来越小时, g ( z ) {g(z)} g(z)无限接近于 0 {0} 0
这正是我们想要的针对二元分类算法的预测函数。
问题来了,怎样把输入特征和预测函数结合起来呢?
结合线性回归函数的预测函数 h θ ( x ) = θ T x {h_{\theta}(x)={\theta}^Tx} hθ(x)=θTx,假设令 z ( x ) = θ T x {z(x)={\theta}^Tx} z(x)=θTx,则逻辑回归算法的预测函数如下:
h θ ( x ) = g ( z ) = g ( θ T x ) = 1 1 + e − θ T x {h_{\theta}(x)=g(z)=g({\theta}^Tx)=\frac{1}{1+e^{-{\theta}^Tx}}} hθ(x)=g(z)=g(θTx)=1+eθTx1。下面解读预测函数。
h θ ( x ) {h_{\theta}(x)} hθ(x)表示在输入值为 x {x} x,参数为 θ {\theta} θ的前提下 y = 1 {y=1} y=1的概率。用概率论的公式可以写成: h θ ( x ) = P ( y = 1 ∣ x , θ ) {h_{\theta}(x)=P(y=1|x,\theta)} hθ(x)=P(y=1x,θ),即在输入 x {x} x及参数 θ {\theta} θ条件下 y = 1 {y=1} y=1的概率。由条件概率公式可以推导出
P ( y = 1 ∣ x , θ ) + P ( y = 0 ∣ x , θ ) = 1 {P(y=1|x,\theta)+P(y=0|x,\theta)=1} P(y=1x,θ)+P(y=0x,θ)=1
对二分类来说,这是一个非黑即白的世界。

1.2 判定边界

逻辑回归算法的预测函数由以下两个公式给出:
h θ ( x ) = g ( θ T x ) {h_{\theta}(x)=g({\theta}^Tx)} hθ(x)=g(θTx) g ( z ) = 1 1 + e − z {g(z)= \frac{1}{1+e^{-z}}} g(z)=1+ez1
假定 y = 1 {y=1} y=1的判定条件是 h θ ( x ) ≥ 0.5 {h_{\theta}(x)\geq0.5} hθ(x)0.5 y = 0 {y=0} y=0的判定条件是 h θ ( x ) ≤ 0.5 {h_{\theta}(x)\leq 0.5} hθ(x)0.5,所以 θ T x = 0 {\theta^Tx=0} θTx=0就是我们的判定边界。
假定有两个变量 x 1 , x 2 {x_1,x_2} x1x2,其逻辑回归预测函数是 h θ ( x ) = g ( θ 0 + θ 1 x 1 + θ

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值