介绍
Logistic Regression是目前应用比较广泛的一种优化算法,利用logistic regression进行分类的只要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。
Logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的Logistic回归[1]。
最大似然估计数学背景
某位同学与一位猎人一起出去打猎,一只兔子从前方窜过。只听见一声枪响,野兔应声倒下,如果要你来推测,这一发命中的子弹是谁打的?你会怎么想呢?正常的情况下,猎人的枪法肯定比你的同学的枪法好,也就是说猎人的命中率比你的同学高。而一枪就打死兔子,命中率是100%的,这么高的命中率,应该是谁打中的呢?显然,猎人开的枪比较符合我们观察的想象了吧。如果是开了三枪才打中兔子的话,那枪法就不怎么样了,某同学开的枪比较符合已经发生的现象了[2]。这就是最大似然估计所隐含的意义。
Logistic Regression的推导过程
对于多元线性回归,线性边界:
其中: