需要的知识储备:
概率论中的——似然函数求解
数学的求导公式——以及倒数求导。
1. logistic分布的概念,如下图
分布其实就是概率值。
logistic分布为什么常用呢?因为它的分布曲线,在中心附近增长很快,而在两端增长很慢。这就是说,若以概率0.5(中心点z=μ处的分布概率)为分界点,大于μ的点为一类,小于μ的点为另一类,那么,我们能很好很快地把中心点附近的数据分类。
基于这个分布的特点,我们假设训练数据满足如下的模型:
2. Logistic回归的模型,如下图
3. Logistic模型中参数的求法(估计)
有了如上模型的假设,有了训练数据后,我们就可以把模型中的参数给求出来,具体方法如下:
4. 利用模型进行分类
利用3中的方法,得到一个logistic模型的结果如下:
则,对于测试数据或未来要分类的数据,我们只需把x带入上面的两个条件概率公式,哪个条件概率的值大,x对应的类别便是哪一类。