机器学习(八)
逻辑斯蒂回归(logistics)
简介:
利用Logistics回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式(f(x1,x2……) = w1x1+w2x2+……),以此进行分类。这里的“回归” 一词源于最佳拟合,表示要找到最佳拟合参数集
过程:
Logistic Regression和Linear Regression的原理(函数:二乘法(y - wx)^2,最小)是相似的,可以简单的描述为这样的过程
1.找一个合适的预测函数,一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程是非常关键的,需要对数据有一定的了解或分析,知道或者猜测预测函数的“大概”形式,比如是线性函数还是非线性函数。
h : f(x1,x2,……xn) = x1w1 + x2w2 +……+xnwn + b
2.构造一个Cost函数(损失函数),该函数表示预测的输出(h)与训练数据类别(y)之间的偏差,可以是二者之间的差(h-y)或者是其他的形式。综合考虑所有训练数据的“损失”,将Cost求和或者求平均,记为J(w)函数,表示所有训练数据预测值与实际类别的偏差。
cost = J(w) = (h - y)**2
3.显然,J(w)函数的值越小表示预测函数越准确(即h函数越准确),所以这一步需要做的是找到J(w)函数的最小值。找函数的最小值有不同的方法,Logistic Regression实现时有梯度下降法(Gradient Descent)
logistic回归想法(站在巨人的肩膀上)
优点:
1.实现简单,易于理解;
2.计算代价不高,速度快存储资源低
缺点:
容易欠拟合,分类精度可能不高