逻辑回归 (Logistic regression)
一. 线性模型
线性模型试图学一个通过d个属性的线性组合来进行预测的函数
参数 w,b w , b 学得之后,模型就得以确定。
线性回归
回归任务的损失函数——平方误差
数据集
D=(x1,y1),(x2,y2),...(xm,ym)
D
=
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
(
x
m
,
y
m
)
x
x
是一元 的,
基于平方误差最小化来进行模型的求解的方法称为最小二乘法
对 w,b w , b 求导,令导数为0就得到最优解的闭式解
更一般的情况,样本x是由d个属性描述的,此时称为 多元线性回归
平方误差
求导
导数为0
XTX X T X 为满秩矩阵(可逆矩阵)
X 的列数大于行数,则 XTX X T X 不满秩 为什么??
广义线性模型
线性回归模型
对数线性回归模型
更一般地, g(.) g ( . ) 单调可微。
二. 逻辑回归(对数几率回归)
逻辑回归是一个分类算法,因为它的原理里面却残留着回归模型的影子。(回归模型+logistic function)
在广义线性模型中我们得到回归模型产生的预测值
z=wTx+b
z
=
w
T
x
+
b
,
对于二分类任务只需要将z映射到
y∈{0,1}
y
∈
{
0
,
1
}
。
逻辑回归就是用对数几率函数(logistic function)或者称sigmoid函数
预测结果z大于0,判为正例;小于0判为反例。(阶跃函数也可以办得到)
但是logistic function 单调可微,不仅仅预测出类别,还可以得到近似概率。
把 y y 视为样本作为正例的可能性,则是其反例的可能性。
定义对数几率为
对数几率是输入x的线性函数
模型+策略+算法
二元的逻辑回归算法的模型是学习条件概率
策略: 令每个样本属于其真实标记的概率越大越好,(似然函数最大化)
给定数据集 {(xi,yi)}mi=1 { ( x i , y i ) } i = 1 m , 对数似然函数
算法:
为方便表示, (w,b) ( w , b ) 其实可以表示在一起,见上多元线性回归公式部分 w=(w;b);x=(x,1) w = ( w ; b ) ; x = ( x , 1 )
令
则
重写对数似然函数
求梯度
更新公式
梯度下降 更新公式 。。。收敛得到的解是最优解,因为目标函数是凸的
多项逻辑回归 多分类。。。
参考文献
【1】周志华 《机器学习》