机器学习进阶（一）回归

最新推荐文章于 2023-12-11 17:00:00 发布

Little Yueyue

最新推荐文章于 2023-12-11 17:00:00 发布

阅读量173

点赞数

分类专栏：菜鸟入门倒计时

本文链接：https://blog.youkuaiyun.com/little_yueyue/article/details/113987839

版权

菜鸟入门倒计时专栏收录该内容

40 篇文章

订阅专栏

这篇博客详细介绍了回归模型，包括线性回归、局部加权线性回归、logistic回归和Softmax回归。讨论了目标函数、梯度下降、正则项评估以及不同回归模型的损失函数和优化方法，如批量梯度下降、随机梯度下降和mini-batch梯度下降。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

线性回归

目标函数
$J(\theta)=\frac{1}{2}\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})^2=\frac{1}{2}(X\theta-y)^T(X\theta-y)$
求解方法
正规求解： $\theta=(X^TX)^{-1}X^Ty$
梯度下降： $\frac{\partial J(\theta)}{\partial \theta_j}=\theta_j-\alpha\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})x_j$
3.正则项

$\quad$	L0正则项	L1正则项	L2正则项	Elastic Net
形式	$\sum I_{\{\theta_i \neq0\}}$	$\sum \vert\theta_i \vert$	$\sum \theta_i^2$	$\rho \sum \vert\theta_i \vert+(1-\rho)\sum \theta_i^2 , \rho \in[0,1]$
含义	L0正则化的值是模型参数中非零参数的个数	L1范数是指向量中各个元素绝对值之和	L2正则化标识各个参数的平方的和的开方值	Elastic Net则为L1和L2的加权组合
结果倾向		L1会趋向于产生少量的特征，而其他的特征都是0	L2会选择更多的特征，但这些特征都会接近于0
使用场景		在所有特征中只有少数特征起重要作用的情况下，选择L1比较合适。L1不仅可以作为正则化手段，其在特征选择时候非常有用	如果所有特征中，大部分特征都能起作用，而且起的作用很平均，那么使用L2更合适。

$R^2$ 评估
$R^2=\frac{\sum_{i=1}^n (\hat{y_i}- \overline{y})^2}{\sum_{i=1}^n (y_i- \overline{y})^2}=1-\frac{\hat{\epsilon} _i^2}{\sum_{i=1}^n (y_i- \overline{y})^2}=1-\frac{(\hat{y}-y_i) ^2}{\sum_{i=1}^n (y_i- \overline{y})^2}$
$(\sum_{i=1}^n (y_i- \overline{y})^2\ge\sum_{i=1}^n (\hat{y_i}- \overline{y})^2 +\sum_{i=1}^n\hat{\epsilon} _i^2)$
其中， $\hat{y}$ 为估计值， $x_i,y_i$ 为样本值。 $R^2$ 越大，拟合效果越好。括号中的等号当且仅当 $\theta$ 为无偏估计时成立。

梯度下降

$\quad$	批量梯度下降	随机梯度下降	mini-batch 梯度下降
式子	$\theta_j: \theta_j-\alpha\sum_{i=1}^n(h_{\theta}(x^{(i)})-y^{(i)})x_j$	$\theta_j:\theta_j-\alpha (h_{\theta}(x^{(i)})-y^{(i)})x_j$	$\theta_j: \theta_j-\alpha\sum_{i=1}^m(h_{\theta}(x^{(i)})-y^{(i)})x_j$ , $m < n$

局部加权线性回归

目标函数
$J(\theta)=\sum_{i=1}^nw^{(i)}(h_{\theta}(x^{(i)})-y^{(i)})^2$
$w$ 为权重，若为高斯函数，则 $w^{(i)}=exp(-\frac{(x^{(i)}-x)^2}{2\tau^2})$ ，其中 $\tau$ 为带宽。

logistic回归

对数线性模型
对数几率： $\log it(p)=\log\frac{p}{1-p}=\log\frac{h_{\theta}(x)}{1-h_{\theta}(x)}=\theta^Tx$
sigmoid函数
$g(z)=\frac{1}{1+e^{-z}}$
$g^{'} (z) = g (z) (1 - g (z))$
参数估计
假定： $P(y=1|x;\theta)=h_{\theta}(x),P(y=0|x;\theta)=1-h_{\theta}(x)$ ，
则有 $p(y|x;\theta)=(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$
那么对数似然函数为 $\log(L(\theta))=\log \prod_{i=1}^n p(y|x;\theta)=\sum_{i=1}^n y^{(i)}\log h(x^{(i)})+(1-y^{(i)})\log(1-h(x^{(i)}))$
对 $\theta_j$ 求偏导
$\begin{aligned} \frac{\partial l(\theta)}{\partial \theta_j} &= \sum_{i=1}^n(\frac{y^{(i)}}{h(x^{(i)})}- \frac{1-y^{(i)}}{1-h(x^{(i)})})\frac{\partial h(x^{(i)})}{\partial \theta_j}\\ &=\sum_{i=1}^n(\frac{y^{(i)}}{g(\theta^Tx^{(i)})}- \frac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})})\frac{\partial g(\theta^Tx^{(i)})}{\partial \theta_j}\\ &=\sum_{i=1}^n(\frac{y^{(i)}}{g(\theta^Tx^{(i)})}- \frac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})})g(\theta^Tx^{(i)})(1-g(\theta^Tx^{(i)}))\frac{\partial \theta^Tx^{(i)}}{\partial \theta_j}\\ &=\sum_{i=1}^n (y^{(i)}-g(\theta^Tx^{(i)}))x^{(i)} \end{aligned}$
损失函数
$L(\theta)=-\log(L(\theta))$
梯度下降
批量梯度下降
$\theta_j: \theta_j+\alpha\sum_{i=1}^n(y^{(i)}-g(\theta^Tx^{(i)}))x^{(i)}$
随机梯度下降
$\theta_j: \theta_j+\alpha(y^{(i)}-g(\theta^Tx^{(i)}))x^{(i)}$
mini-batch梯度下降
$\theta_j: \theta_j+\alpha\sum_{i=1}^m(y^{(i)}-h_\theta (x^{(i)}))x^{(i)},m<n$

$\quad$	线性回归	逻辑回归
$h_\theta (x^{(i)})$	$h_\theta (x^{(i)}))=\theta^Tx$	$h_\theta (x^{(i)}))=\frac{1}{1+e^{-x}}$
假设	$\epsilon$ (也就是 $y=\theta^Tx+\epsilon$ )服从高斯分布，是指数族分布	$y$ 服从二项分布，是指数族分布

指数族分布的函数梯度下降都有类似的形式

Softmax回归

$s o f t m a x$ 函数
$softmax(z_k)=\frac{exp(z_k)}{\sum_{i=1}^K exp(z_i)}$
$\begin{aligned} \frac{\partial softmax(z_k)}{\partial z_k}&=\frac{exp(z_k)\sum_{i=1}^K exp(z_i)-exp(z_k)exp(z_k)}{(\sum_{i=1}^K exp(z_i))^2}\\ &=softmax(z_k)(1-softmax(z_k)) \end{aligned}$
$\frac{\partial softmax(z_k)}{\partial z_j}=\frac{-exp(z_k)exp(z_j)}{(\sum_{i=1}^K exp(z_i))^2}=-softmax(z_k)softmax(z_j)$
$\frac{\partial \log softmax(z_k)}{\partial z_k}=\frac{\partial (z_k-\log \sum_{i=1}^K exp(z_i))}{\partial z_k}=1-softmax(z_k)$
$\left(\frac{\partial \log softmax(z_k)}{\partial z_k}=\frac{1}{softmax(z_k)}\partial softmax(z_k)=1-softmax(z_k)\right)$
$k$ 分类
对于第 $k$ 类，参数为 $\theta_k=(\theta_1,\dots,\theta_m)^T$ ， $m$ 为数据 $x$ 的维数， $\Theta$ 是一个 $k\times m$ 的矩阵。第 $i$ 个样本 $x^{(i)}$ 的标签 $\bm{y}^{(i)}=(y_1^{(i)},\dots,y_k^{(i)})$
则假定：
$\begin{aligned} P(y=k|x;\theta)&=\frac{exp(\theta_k^Tx)}{\sum_{k=1}^K exp(\theta_k^Tx)},k=1,2,\dots,K\\ \end{aligned}$
记 $(\bm{y}^{(i)})^T=(\hat{y}^{(i)}_1,\dots,\hat{y}^{(i)}_K)=(P(y=1|x^{(i)};\theta),\dots,P(y=K|x^{(i)})$ .
对数似然函数 $\begin{aligned} \log(L(\theta))&=\log \prod_{i=1}^n p(y|x;\theta)\\ &=log \prod_{i=1}^n \prod_{k=1}^K (P(y=k|x;\theta))^{y_k^{(i)}}\\ &=log \prod_{i=1}^n \prod_{k=1}^K \left(\frac{exp(\theta_k^Tx^{(i)})}{\sum_{k=1}^K exp(\theta_k^Tx^{(i)}))} \right)^{y_k^{(i)}}\\ &\left(=\sum_{i=1}^n \sum_{i=1}^K y_k^{(i)} \log \hat{y}^{(i)}_k =\sum_{i=1}^n (\bm{y}^{(i)})^T\log\bm{\hat{y}} =\bm{y}^T\log\bm{\hat{y}} \right)\\ &=\sum_{i=1}^n \sum_{k=1}^K y_k^{(i)} (\theta_k^Tx^{(i)}-\log\sum_{k=1}^K exp(\theta_k^Tx^{(i)}))) \end{aligned}$

对 $\theta_j$ 求偏导
$\begin{aligned} \frac{\partial L(\theta)}{\partial \theta_j}=\sum_{i=1}^n y_j^{(i)} (1-\frac{exp(\theta_j^Tx^{(i)})}{\sum_{l=1}^K exp(\theta_l^Tx^{(i)})}) (x^{(i)})^T\\ \end{aligned}$

损失函数
$L(\theta)=-\log(L(\theta))$
梯度下降
批量梯度下降
$\theta_j: \theta_j+\alpha\sum_{i=1}^n y_j^{(i)} (1-\frac{exp(\theta_j^Tx^{(i)})}{\sum_{l=1}^K exp(\theta_l^Tx^{(i)})}) (x^{(i)})^T$
随机梯度下降
$\theta_j: \theta_j+\alpha y_j^{(i)} (1-\frac{exp(\theta_j^Tx^{(i)})}{\sum_{l=1}^K exp(\theta_l^Tx^{(i)})}) (x^{(i)})^T$
mini-batch梯度下降
$\theta_j: \theta_j+\alpha\sum_{i=1}^m y_j^{(i)} (1-\frac{exp(\theta_j^Tx^{(i)})}{\sum_{l=1}^K exp(\theta_l^Tx^{(i)})}) (x^{(i)})^T,m<n$