线性回归逻辑回归

最新推荐文章于 2024-12-27 10:33:17 发布

原创最新推荐文章于 2024-12-27 10:33:17 发布 · 260 阅读

CC 4.0 BY-SA版权

一. 线性回归

1. 一维变量

线性回归试图学的 $f(x_i) = wx_i+b$ , 使得 $f(xi)≃yif(x_i)\simeq y_i$ 。
在线性回归中，我们用均方误差来衡量 $f(x_i)$ 与 $y_i$ 之间的差别，使其最小化，即：
$F(w,b)=∑in(f(xi)−yi)2min\ \ \ F(w,b)=\sum_i^n(f(x_i)-y_i)^2$
通常，我们用最小二乘法对基于均方误差优化的模型进行求解，对 $F$ 求导得：
$∂F∂w=∑in2xi(wxi+b−yi)\frac{\partial F}{\partial w}=\sum_i^n2x_i(wx_i+b-y_i)$
$∂F∂b=∑in2(wxi+b−yi)\frac{\partial F}{\partial b}=\sum_i^n2(wx_i+b-y_i)$
令导数等于零，得
$b=1n∑in(−wxi+yi)b=\frac{1}{n}\sum_i^n(-wx_i+y_i)$
$\frac{\sum_i^ny_i(x_i-\frac{1}{n}\sum_i^nx_i)}{\sum_i^nx_i^2-\frac{1}{n}(\sum_i^nx_i)^2}$

2. 多维变量

当数据有 $d$ 个属性时， $x$ （样本数据）是 $n×dn\times d$ 的矩阵，我们试图学到 $f(x) = wx^T+b$ 。令 $X = (x^T;1), w=(w;b)$ , (1为全1的列向量)，其目标函数为：
$min\ \ \ F(w^T)= (w^TX^T-Y^T)^T(w^TX^T-Y^T)$
求导可得：
$∂F∂w=2(wXT−YT)X\frac{\partial F}{\partial w}=2(wX^T-Y^T)X$
令导数为零向量，可得：
$w^T = Y^TX(X^TX)^{-1}$

3. 从MLE角度理解

在这里插入图片描述
当样本数量很大时， $ϵ\epsilon$ （残差）服从标准正态分布。最大化likelihood，相当于最小化红圈部分，这与线性回归(一维)中的目标函数一致。

二、逻辑回归

逻辑回归其实是一个二分类模型。线性回归模型( $f(x_i) = wx_i+b$ )产生的预测值是实数，我们希望将其转变成 $[0, 1]$ 区间上的数，使它代表样本为正的概率 $p(y_i=1|x_i)$ 。对数几率函数是一种"Sigmoid 函数"，可以帮助实现这一想法： $p(yi=1∣xi)=11+e−(wTxi+b)p(y_i=1|x_i)=\frac{1}{1+e^{-(w^Tx_i+b)}}$ 。于是，我们可以通过MLE来估计 $w, b$ ，即最大化对数似然函数：
$ln(w,b)=∑inln(p(yi∣xi))max\ \ \ ln(w,b)=\sum_i^nln(p(y_i|x_i))$
令 $w = (w; b)$ ,
$p(yi∣xi;w)=yi⋅ewTxiewTxi+1+(1−yi)⋅1ewTxi+1=1+yi(ewTxi−1)ewTxi+1\begin{aligned} p(y_i|x_i;w)=&y_i\cdot\frac{e^{w^Tx_i}}{e^{w^Tx_i}+1}+(1-y_i)\cdot\frac{1}{e^{w^Tx_i}+1}\\=&\frac{1+y_i(e^{w^Tx_i}-1)}{e^{w^Tx_i}+1} \end{aligned}$
$(yi∈{0,1})\begin{aligned} ln(p(y_i|x_i;w))=&ln(1+y_i(e^{w^Tx_i}-1))-ln(e^{w^Tx_i}+1)\\=&y_iw^Tx_i-ln(e^{w^Tx_i}+1)\ \ \ \ (y_i\in\{0,1\}) \end{aligned}$
目标函数可变为：
$ln(w)=∑in−yiwTxi+ln(ewTxi+1)min\ \ \ ln(w)=\sum_i^n-y_iw^Tx_i+ln(e^{w^Tx_i}+1)$
一阶导数为：
$∂ln(w)∂w=∑inxi⋅[ewTxiewTxi+1−yi]\frac{\partial ln(w)}{\partial w}=\sum_i^nx_i\cdot[\frac{e^{w^Tx_i}}{e^{w^Tx_i}+1}-y _i]$
二阶导数为：
$∂2ln(w)∂w∂wT=∑inxixiT⋅ewTxiewTxi+1⋅1ewTxi+1\frac{\partial^2 ln(w)}{\partial w\partial w^T}=\sum_i^nx_ix_i^T\cdot\frac{e^{w^Tx_i}}{e^{w^Tx_i}+1}\cdot\frac{1}{e^{w^Tx_i}+1}$
可以计算得到二阶导数大于零，所以目标函数为凸函数；由于令导数为零无法得到闭式解，我们可用梯度下降法等其他的优化方法来求解。