逻辑回归算法LR
逻辑回归相信很多人都很熟悉,这个算法科能不如随机森林、SVM、神经网络、GBDT等分类算法那么复杂那么高深,但是绝不能小瞧这个算法,因为这个这个算法有几个优点是那几个算法无法达到的,一是逻辑回归算法已经比较成熟,预测较为准确;二是模型求出的系数易于理解,便于解释,不属于黑盒模型,尤其在金融业,80%的预测是使用逻辑回归;三是结果是概率值,可以做ranking model; 四是训练快。当然它也有缺点,分类较多的y都不是很适用;对于自变量的多重共线性比较敏感,所以需要利用因子分析或者聚类分析来选择代表性的自变量;另外,预测结果呈现S型,两端概率变化比较小,中间的概率变化比较大比较敏感,导致很多区间的变化对目标概率的影响没有区分度,无法确定阈值。下面我先具体介绍下这个模型。
一、逻辑回归LR介绍
首先要搞清楚当你的目标变量是分类变量时,才会考虑逻辑回归,并且主要用于二分类问题。举个例子说医生希望通过肿瘤的大小x1、长度x2、种类x3等特征来判断病人的肿瘤时恶性还是良性的,这是目标变量y就是分类变量(0良性肿瘤,1恶性肿瘤)。显然我们希望像保留线性回归一样可以通过一些列x与y之间的线性关系来进行预测,但是此时由于y时分类变量,它的取值只能是0,1或者0,1,2等,不可能时负无穷或者正无穷,这个问题怎么解决呢?此时引入一个sigmoid函数,这个函数的性质,非常好的满足了x的输入是负无穷到正无穷,而输出y总是【0,1】,并且当x=0时,y=0.5,以一种概率的形式表示。x=0时,y=0.5这是决策边界。当你确定肿瘤是良性还是恶性时,其实我们是要找出能够分开这两类样本的边界,叫决策边界。
而通过sigmoid函数,可