逻辑回归

本文介绍了逻辑回归的基本概念,包括其作为广义线性模型的特性,如何处理二分类和多分类问题。讨论了逻辑回归与线性回归的区别,以及在处理不平衡数据集时的挑战。此外,还探讨了逻辑回归的优缺点,如模型简单、速度快,但可能对非线性数据拟合不足。最后,提到了特征选择的重要性以及逻辑回归的数学推导和优化方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

逻辑回归简介:
逻辑回归是广义线性模型,逻辑回归具有较好的泛化性和可解释性。假设数据是服从伯努利分布,抛硬币为典型例子,抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑运用极大似然或者对树损失的方法,采用梯度下降对参数的求解,将数据二分类。但是逻辑回归的因变量可以是二分类,也可是多分类。

逻辑和线性回归:
线性回归:为了满足Y=Xθ,求出特征向量Y和样本矩阵X之间的线性关系系数θ,Y是连续。但如果y是离散的,不是连续的,就对这个y值再一次函数的转换,变为b(Y),令b(Y)的值在某个实数区间类别0,另一个实数区间是类别1,二分类模型就形成了。通过使用逻辑函数来预测线性回归拟合出来数据进行分类。

不平衡数据:
一般情况下将少数类实例与多数类实例比为 1:2000,甚至是 1:20000 的数据集定义为不平衡数据集。

均方差作为损失函数不能用于逻辑回归的原因:
逻辑回归如果使用均方差作为损失函数,那么就会出现一个非参函数来表示这个θ。所以只有当函数为凸函数时,梯度下降才会收敛到全局最小值。

逻辑回归的缺点:
1、准确率不高,本质是类似于线性的模型,所以会很难去拟合出实际的数据线性分布。
2、不能筛选特征,需要用gbdt来筛选
3、处理数据不平衡问题困难。把所有样本都预测为正也能使损失函数的值比较小。
4、处理非线性数据较麻烦。或者说只是适合处理二分类的问题 。

逻辑回归的优点:
1、逻辑回归只需存储各个维度的特征值,所以相对来说资源占用小。
2、训练速度快,计算量仅仅只和特征的数目相关,分布式优化随机梯度下降也很成熟了。
3、模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值