逻辑回归简介:
逻辑回归是广义线性模型,逻辑回归具有较好的泛化性和可解释性。假设数据是服从伯努利分布,抛硬币为典型例子,抛中为正面的概率是p,抛中为负面的概率是1−p.在逻辑运用极大似然或者对树损失的方法,采用梯度下降对参数的求解,将数据二分类。但是逻辑回归的因变量可以是二分类,也可是多分类。
逻辑和线性回归:
线性回归:为了满足Y=Xθ,求出特征向量Y和样本矩阵X之间的线性关系系数θ,Y是连续。但如果y是离散的,不是连续的,就对这个y值再一次函数的转换,变为b(Y),令b(Y)的值在某个实数区间类别0,另一个实数区间是类别1,二分类模型就形成了。通过使用逻辑函数来预测线性回归拟合出来数据进行分类。
不平衡数据:
一般情况下将少数类实例与多数类实例比为 1:2000,甚至是 1:20000 的数据集定义为不平衡数据集。
均方差作为损失函数不能用于逻辑回归的原因:
逻辑回归如果使用均方差作为损失函数,那么就会出现一个非参函数来表示这个θ。所以只有当函数为凸函数时,梯度下降才会收敛到全局最小值。
逻辑回归的缺点:
1、准确率不高,本质是类似于线性的模型,所以会很难去拟合出实际的数据线性分布。
2、不能筛选特征,需要用gbdt来筛选
3、处理数据不平衡问题困难。把所有样本都预测为正也能使损失函数的值比较小。
4、处理非线性数据较麻烦。或者说只是适合处理二分类的问题 。
逻辑回归的优点:
1、逻辑回归只需存储各个维度的特征值,所以相对来说资源占用小。
2、训练速度快,计算量仅仅只和特征的数目相关,分布式优化随机梯度下降也很成熟了。
3、模型