不同模型代价函数的梯度下降算法

最新推荐文章于 2024-09-23 16:08:01 发布

baixiaofu

最新推荐文章于 2024-09-23 16:08:01 发布

阅读量533

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习数据挖掘文章标签：代价函数；梯度下降

本文链接：https://blog.youkuaiyun.com/baixiaofu/article/details/80118031

数据挖掘同时被 2 个专栏收录

8 篇文章

订阅专栏

机器学习

1 篇文章

订阅专栏

本文详细介绍了梯度下降算法在简单线性回归、多元回归及逻辑回归中的应用，并探讨了不同场景下梯度下降的具体实现方式及其对参数更新的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降

r e p r a t : θ j = θ j - α \partial J ( θ 0 , θ 1 \dots θ n ) \partial θ j f o r j = 0, 1 \dots, n

$reprat: \theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1\cdots\theta_n)}{\partial \theta_j} \\ for \quad j = 0,1\cdots,n$

多维情况

对于多维特征的时候，不同特征对应的取值范围可能会相差很大，这个时候对每个特征最好是进行变换，使得各个维度上的取值范围很相似。这时候的梯度下降速度才能得到保证，要不然很能会迭代很多次才能实现收敛。

可视化收敛判断

可以画出代价函数与迭代次数的函数图形
梯度下降收敛图

简单线性回归

模型形式：

h θ (x) = θ 0 + θ 1 x

$h_\theta(x)=\theta_0+\theta_1x$
代价函数：

J (θ 0, θ 1) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$
梯度下降算法：

r e p e a t j : θ 0 = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) θ 1 = θ 1 - α \sum i = 1 m (h θ (x (i)) - y (i)) x (i) f o r j = 0, 1

$repeat\quad j:\\\theta_0=\theta_0-\alpha \frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})\\\theta_1=\theta_1-\alpha \sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x^{(i)}\\for\quad j=0,1$

多元回归

模型形式：

h θ (x) = θ T X = θ 0 + θ 1 x 1 + θ 2 x 2 + \dots + θ n x n

$h_\theta(x)=\theta^TX=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$
代价函数：

J (θ 0, θ 1 \dots θ n) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta_0,\theta_1\cdots\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}{(h_\theta(x^{(i)})-y^{(i)})^2}$
梯度下降算法：

r e p e a t j : θ j = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) f o r j = 0, 1 \dots, n

$repeat\quad j:\\ \theta_j=\theta_j-\alpha \frac{1}{m}\sum_{i=1}^{m}\big(h_\theta(x^{(i)})-y^{(i)}\big)x^{(i)}\\ for\quad j=0,1\cdots,n$

多元回归参数求解的正则实现

θ = (X T X) - 1 X T Y

$\theta=(X^TX)^{-1}X^TY$

逻辑回归

模型形式：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_\theta(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
其中函数

g(z)g(z) $g(z)$ 是sigmoid函数，函数形式：

g (z) = 1 1 + e - z

$g(z)=\frac {1}{1+e^{-z}}$
这样不论

zz $z$ 的取值如何，函数都会被映射到

[0, 1]

$[0,1]$ 这个区间上。
sigmoid函数

代价函数和前面线性回归模型的代价函数形式一样吗？
逻辑回归的代价函数如果定义为如下的形式：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2

$J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}\big(h_\theta(x^{(i)})-y^{(i)}\big)^2$
这对于一般线性模型可行的，但是对于逻辑回归却不行，原因是逻辑回归模型

hθ(x)hθ(x) $h_\theta(x)$ 关于

θθ $\theta$ 是非凸函数，直接导致了代价函数也是非凸函数，直接求解参数的时候得到的是局部最优解，不是全局最优。所以要重新定义逻辑回归的代价函数。

逻辑回归代价函数：
重新定义逻辑回归的代价函数要从逻辑回归的本质来进行定义。首先是逻辑回归解决的是二分类的问题，采用模型预测的结果 $h_\theta(x)$ 很像是归为1类的概率。当 $h_\theta(x^{(i)})$ 越接近于1的时候，我们就认为样本 $i$ 归为1类的可能性就会越大。样本归为0类的可能性【也就是概率】是 $1-h_\theta(x^{(i)})$ ，到这里的时候我们就很容易的可以看出这就像是概率论上的伯努利分布。每个样本的分布函数如下：

P = h θ (x (i)) y (i) (1 - h θ (x (i))) 1 - y (i)

$P=h_\theta\big(x^{(i)}\big)^{y^{(i)}}\big(1-h_\theta(x^{(i)})\big)^{1-y^{(i)}}$
下面要做的就是找到这样的参数

θθ $\theta$ ，使得

PP $P$ 最接近于真实分布。这时就把逻辑回归的代价函数转化成了伯努利分布的极大似然估计问题。
逻辑回归的代价函数：

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} l o g (h_{θ} (x^{(i)}) + (1 - y^{(i)}) (1 - h_{θ} (x^{(i)}))]

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_\theta(x^{(i)})+(1-y^{(i)})(1-h_\theta(x^{(i)}))]$
并且此时的代价函数是凸函数，不会得到局部最优解。
梯度下降算法：

r e p r a t : θ j = θ j - α \partial J ( θ 0 , θ 1 \dots θ n ) \partial θ j f o r j = 0, 1 \dots, n

$reprat: \theta_j=\theta_j-\alpha\frac{\partial J(\theta_0,\theta_1\cdots\theta_n)}{\partial \theta_j} \\ for \quad j = 0,1\cdots,n$
下面的任务就是计算

∂J(θ0,θ1⋯θn)∂θj∂J(θ0,θ1⋯θn)∂θj $\frac{\partial J(\theta_0,\theta_1\cdots\theta_n)}{\partial \theta_j}$ ,计算过程如下：
这里写图片描述

计算过程中用到了sigmod函数的导数和sigmod函数之间的关系：

g' (z) = g (z) (1 - g (z))

$g^{'}(z)=g(z)(1-g(z))$

最终的逻辑回归梯度下降算法如下：

r e p r a t : θ j = θ j - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j f o r j = 0, 1 \dots, n

$reprat: \theta_j=\theta_j-\alpha \frac{1}{m}\sum_{i=1}^{m}\big(h_\theta(x^{(i)})-y^{(i)}\big)x_j^{(i)} \\ for \quad j = 0,1\cdots,n$
可以看到最终的形式和线性回归的形式是相同的，虽然过程是完全不同的。