目录
一、Logistic回归
logistic回归的优点:计算代价不高,易于理解和实现。缺点:容易欠拟合,分类精度可能不高。适用数据类型:数值型和标称型数据。
一个常用的逻辑函数为Sigmoid函数,公式为,其图像为
上图给出了sigmoid函数在不同坐标尺度下的两条曲线图。当x为0时,sigmoid函数值为0.5。随着x的增大,对应的sigmoid函数的值将逼近于1;而随着x的减小,sigmoid函数的值将逼近于0。而第二幅图中我们能看到在横坐标的刻度足够大是,在x=0处sigmoid函数看起来很像阶跃函数。
为了实现logistic回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和带入sigmoid函数中。进而得到一个范围在0-1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被分入0类。所以,logistic回归也可以看所是一种概率估计。
基于最优化方法的最佳回归系数确定
sigmoid函数的输入记为z,有下面公式得出:
根据向量的写法,上述公式写成x是分类器的输入数据,向量w就是我们要找的最佳参数(系数),为了寻找最优化w值,还需要用到最优化理论。
梯度上升法
梯度上升法思想是:要找到某个函数的最大值,最好的方法是沿着该函数的梯度方向寻找。如果梯度记为,则函数f(x,y)的梯度由下式表示:
这个梯度意味着沿x方向移动 ,沿着y的方向移动
。其中,函数f(x,y)必须要在待计算的点上有定义并可微。