逻辑回归算法梳理

本文深入探讨了逻辑回归算法,对比线性回归,解析其原理、损失函数推导及优化方法,讨论正则化作用与模型评估指标,总结算法优缺点,并提出样本不均衡问题的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、逻辑回归与线性回归的联系与区别

区别:线性回归主要用来解决连续值预测的问题,逻辑回归用来解决分类的问题,输出的属于某个类别的概率。

2、逻辑回归的原理

面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏

3、逻辑回归损失函数推导及优化

4、 正则化与模型评估指标

正则化方法
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化项就越大。

正则项可以取不同的形式,在回归问题中取平方损失,就是参数的 L 2 L_{2} L2 范数,也可以取 L 1 L_{1} L1 范数。取平方损失时,模型的损失函数变为:
J ( θ ) = l ( θ ) + 1 / m ∗ ∑ θ 2 J(θ) = l(θ) + 1/m * ∑ θ2 J(θ)=l(θ)+1/mθ2
lambda是正则项系数:
• 如果它的值很大,说明对模型的复杂度惩罚大,对拟合数据的损失惩罚小,这样它就不会过分拟合数据,在训练数据上的偏差较大,在未知数据上的方差较小,但是可能出现欠拟合的现象;
• 如果它的值很小,说明比较注重对训练数据的拟合,在训练数据上的偏差会小,但是可能会导致过拟合。
正则化后的梯度下降算法θ的更新变为:
θ = θ − λ / m ∗ ∑ ( h ( x ) − y ) ∗ x − λ / m ∗ θ θ = θ - λ/m *∑ (h(x)-y)*x - λ/m * θ θ=θλ/m(h(x)y)xλ/mθ

5、逻辑回归的优缺点

优点

  1. 适合需要得到一个分类概率的场景。
  2. 计算代价不高,容易理解实现。 L R LR LR 在时间和内存需求上相当高效。它可以应用于分布式数据,并且还有在线算法实现,用较少的资源处理大型数据。
  3. L R LR LR 对于数据中小噪声的鲁棒性很好,并且不会受到轻微的多重共线性的特别影响。

缺点

  1. 容易欠拟合,分类精度不高。
  2. 数据特征有缺失或者特征空间很大时表现效果并不好。

6、样本不均衡问题解决办法

  1. 产生新数据型:过采样小样本(SMOTE),欠采样大样本。
  2. 对原数据的权值进行改变。
  3. 通过组合集成方法解决。
  4. 通过特征选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值