初探NO.1—逻辑回归学习的前前后后
Leo突然消失了半个月,哈哈哈,因为我学车去了~大冬天的学车还是挺冷的。不过既然年前任务结束了,那就静下心来再写几篇博客吧~
其实我发现我写完了算法初探之后,不知道如何继续下手。要么有些东西知道但是不知道如何表达,要么发现自己还是不能掌握其中的精髓,但是既然要写就干脆踏踏实实做,所以这一期我将给大家带来我学习的第一个算法—Logistic regression
首先我们要知道第一个概念,回归分析。
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
那么请大家回忆一下我们在中学阶段学到过线性回归,内容是用最小的二乘方法,去确定一条直线。而这一条直线,会尽量穿过所有的坐标系的点。记得当初老师给出了一长串的公式,然后我们需要做的任务就是计算......
确实有些例子需要用到线性的回归。但是更多的时候我们需要分析问题的答案局限于是非之间。这一句话什么意思?
打几个比方:他会不会买这家超市的水果?这一门科目他能不能及格?这件衣服她穿上好不好看?这个酒店的菜好不好吃......这一种问题呢,在统计这一块是一种二类分类的问题。问题的答案局限在是或者否上面。人们为了对着两个类别进行精确地分类提出了很多很多的模型与方案,而逻辑回归的模型可以作为一种入门而且经典的方法。那么我们就一点一点地对它进行探究吧~
就拿“这个酒店的菜好不好吃”这一个命题来举例探究。一种朴素而直接的方法,我们根据色,香,味这三个指标对每一道菜进行打分。最好的是100分,最差的是0分。然后把这三方面进行均衡,每一个指标各占1/3。再结合大家的意见给出评判结果。
这一种“朴素”的想法,简洁,高效,有可取之处,也是逻辑回归的雏形。
首先,打分的区间[0,100]就是一种数值方面的映射,这保证了每个菜的分数不可能超过100,也不能是负分。而在逻辑回归模型中,采取的函数是sigmoid 函数。其中函数的计算公式和图像如下: