【人工智能基础04】线性模型(练习题)

原创已于 2024-12-16 15:12:48 修改 · 1.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

于 2024-12-07 20:19:48 首次发布

人工智能基础知识专栏收录该内容

26 篇文章

订阅专栏

文章目录

1-3. 概念题

在这里插入图片描述

4. 如何限制空间

在这里插入图片描述

1.约束版本

对于线性回归问题，限定参数向量 w 的大小，即 ||w||₂ ≤ c。这里 c 是一个预先设定的常数，用于限制 w 的长度。这个约束条件直接对参数向量的长度进行了限制，确保其不会过大或过小。

2.无约束版本

$\min（\frac{1}{2N}||Xw - y||_2^2+\frac{\lambda}{2}||w||_2^2）$

N 是样本数量，X 是输入数据矩阵，w 是参数向量，y 是目标值向量。这个目标函数由两部分组成：第一部分是均方误差项，表示模型对数据的拟合程度；第二部分是正则化项，通过惩罚参数向量 w 的长度来防止过拟合。参数 λ 用于控制正则化的强度。

通过调整 λ 的值，可以在拟合数据和限制参数大小之间进行权衡。

当 λ 较大时，正则化项的作用更强，参数向量 w会更趋向于零向量，从而防止过拟合；
当 λ 较小时，正则化项的作用较弱，模型更注重拟合数据。

例如，在实际应用中，可以通过交叉验证等方法来选择合适的 λ 值，以获得最佳的模型性能。

5. 梯度下降的计算

在这里插入图片描述

6. 随机梯度下降

在这里插入图片描述

批较小时的影响
随机梯度噪声大：批大小很小时，每次用于计算梯度的样本少，导致计算出的随机梯度与真实梯度偏差大，噪声大。例如在图像分类任务中，小批大小可能使梯度在不同方向剧烈波动，影响模型向最优解前进。
不易收敛：由于随机梯度噪声大，模型参数更新不稳定，难以收敛到较好的解。在回归问题中，模型可能在最优解附近振荡，且小批大小可能使模型陷入局部最优解。

批较大时的影响
运行速度慢：批大小较大时，每次参与梯度计算的样本多，虽然能减少随机梯度噪声，但会增加计算量和内存占用，导致训练速度变慢。
可能陷入局部最优：较大的批大小可能使模型参数更新过于“平滑”，缺乏对不同局部区域的探索能力，容易陷入局部最优解，错过全局最优解。

总之，在随机梯度下降中，选择合适的批大小很重要，需要综合考虑数据集大小、硬件资源和模型复杂度等因素，平衡随机梯度噪声和训练效率，以获得更好的训练效果。

7. Softmax计算

在这里插入图片描述

$u$ 的含义: $u$ 是一个属于 $k$ 维实数空间（ $u\in\mathbb{R}^{k}$ ）的向量。这意味着 $u$ 有 $k$ 个分量，每个分量都是一个实数。

$y$ 的含义： $y$ 是向量 $u$ 经过Softmax变换后得到的向量。

Softmax函数常用于多分类问题中，它将一个 $k$ 维的实数向量转换为一个 $k$ 维的概率分布向量。具体来说，对于向量 $u=(u_{1},u_{2},\cdots,u_{k})$ ，经过Softmax变换后得到的向量 $y=(y_{1},y_{2},\cdots,y_{k})$ ，其中：
$y_{i}=\frac{e^{u_{i}}}{\sum_{j = 1}^{k}e^{u_{j}}}$
这里的 $y_{i}$ 表示向量 $y$ 中的第 $i$ 个元素，它代表了输入向量 $u$ 对应的第 $i$ 个类别上的概率。

注意：求导时，对求和的导数

8. 岭回归思想

在这里插入图片描述

岭回归的基本思想如下：

一、问题背景

在传统的线性回归中，通常使用最小二乘法来求解模型参数，其目标是最小化损失函数 $\frac{1}{2N}||Xw - y||_2^2$ ，其中(X)是输入数据矩阵，(w)是模型参数向量，(y)是目标值向量。然而，在实际应用中，当数据特征较多或者存在相关性时，普通的线性回归容易出现过拟合的问题。

二、基本思想引入

为了解决过拟合问题，岭回归在普通线性回归的损失函数基础上引入了对参数向量(w)的约束。具体来说，岭回归希望同时限定 $w||_2^2$ （即(w)的长度平方）的大小，要求(w)的长度满足 $||w||_2^2\leq c$ ，其中(c)是一个预先设定的常数。这样做的直觉是，通过限制参数向量的长度，可以有效地缩小解空间的大小。

三、作用及意义

解决过拟合：限制解空间的大小有助于防止模型过度拟合训练数据。岭回归通过限制参数向量的长度，使得模型在选择特征时更加谨慎，从而提高了模型的泛化能力。
稳定性提升：在数据存在噪声或不确定性的情况下，岭回归可以减少参数估计的方差，使得模型对不同的数据集具有更好的鲁棒性。

总之，岭回归的基本思想是在普通线性回归的基础上，通过引入对参数向量长度的约束，来解决过拟合问题并提高模型的稳定性和泛化能力。