1、考虑一个数据集,其中两点{(-1, -1), (1, 1)}属于一类,另外两点{(1, -1), (-1, 1)}属于另一类。从感知机参数值(0, 0)开始,以α = 1进行几次随机梯度下降更新。在进行随机梯度下降更新时,以任意顺序遍历训练点。(a) 该算法是否会收敛,即目标函数的变化随时间变得极小?(b) 解释(a)中情况发生的原因。
(a) 该算法会收敛。因为给定的数据是线性可分的,感知机算法在数据线性可分时总是会收敛到在训练数据上零误差的解,意味着目标函数的变化会随时间变得极小。
(b) 发生这种情况是因为数据是线性可分的,感知机算法在这种情况下能找到一个线性超平面将两类数据分开,从而使分类误差为零,目标函数的变化也会极小。
2、证明感知机、Widrow - Hoff学习、支持向量机(SVM)和逻辑回归的随机梯度下降更新都具有形式 W ⇐ W(1 - αλ) + αy[δ(X, y)]X。这里,错误函数 δ(X, y) 对于最小二乘分类是 1 - y(W · X),对于感知机/SVM 是指示变量,对于逻辑回归是概率值。假设 α 是学习率,且 y ∈ {-1, +1}。写出每种情况下 δ(X, y) 的具体形式。
-
感知机 :
δ(X, y) 是指示变量,当 y(W · X) < 1 时,δ(X, y) = 1;否则,δ(X, y) = 0。 -
Widrow-Hoff学习 :
δ(X, y) = 1 - y(W · X)。 -
支持向量机(SVM) :
δ(X, y) 是指示变量,当 y(W · X) < 1 时,δ(X, y) = 1;否则,δ(X, y) = 0。 -
逻辑回归 :
δ(X, y) 是概率值,δ(X, y) = 1 / (1 + exp(-y(W · X)))。
3、本章讨论的线性自编码器应用于n×d数据集D的每个d维行,以创建一个k维表示。编码器权重包含k×d权重矩阵W,解码器权重包含d×k权重矩阵V。因此,重建表示为DWᵀVᵀ,并且在整个训练数据集上最小化聚合损失值||DWᵀVᵀ - D||²。当编码器 - 解码器权重绑定为W = Vᵀ时,证明V的列必须是正交归一的。
当权重绑定时,$ W = V^\top $,自编码器用 $ V $ 将 $ d $ 维数据点 $ X $ 转换为 $ k $ 维表示,再用 $ V^\top $ 重建数据。
权重绑定意味着 $ V^\top $ 是 $ V $ 的伪逆,即:
$$
V^\top V = I
$$
所以 $ V $ 的列相互正交。
由于 $ V^\top V = I $,且 $ I $ 是单位矩阵,这表明 $ V $ 的列向量不仅相互正交,其模长也为 1,即列向量是 正交归一 的。
4、考虑一个双输入神经元,它将两个输入x1和x2相乘得到输出o。设L是在o处计算的损失函数。假设已知∂L / ∂o = 5,x1 = 2,x2 = 3。计算∂L / ∂x1和∂L / ∂x2的值。
根据链式法则:
$$
\frac{\partial L}{\partial x_1} = \frac{\partial L}{\partial o} \cdot \frac{\partial o}{\partial x_1}
$$
由于 $ o = x_1 \cdot x_2 $,所以:
$$
\frac{\partial o}{\partial x_1} = x_2
$$
将 $ \frac{\partial L}{\partial o} = 5 $,$ x_2 = 3 $ 代入可得:
$$
\frac{\partial L}{\partial x_1} = 5 \cdot 3 = 15
$$
同理:
$$
\frac{\partial L}{\partial x_2} = \frac{\partial L}{\partial o} \cdot \frac{\partial o}{\partial x_2}
$$
其中:
$$
\frac{\partial o}{\partial x_2} = x_1
$$
将 $ \frac{\partial L}{\partial o} = 5 $,$ x_1 = 2 $ 代入可得:
$$
\frac{\partial L}{\partial x_2} = 5 \cdot 2 = 10
$$
因此,$ \frac{\partial L}{\partial x_1} $ 的值为 15 ,$ \frac{\partial L}{\partial x_2} $ 的值为 10 。
5、请讨论为什么在使用通过与雅可比矩阵相乘来对任意函数进行反向传播这种以矩阵为中心的方法时必须谨慎。[提示:计算关于Sigmoid函数的雅可比矩阵]
在使用矩阵中心的反向传播方法时,必须谨慎的原因主要与 梯度消失 和 梯度爆炸 问题有关。
层与层之间的反向传播更新涉及矩阵乘法(雅可比矩阵),就像重复标量乘法本质上不稳定一样,重复矩阵乘法也不稳定。
以 Sigmoid 激活函数 为例,其导数最大值为 0.25 。在反向传播时,前面的层收到的更新值会远小于后面的层,导致 梯度消失 。
若尝试使用更大梯度的激活函数和初始化更大的权重,又可能导致 梯度爆炸 。
此外,激活函数的导数会随迭代而变化,实际中很难使每个边的权重和激活函数导数的乘积恰好为 1 ,这会导致偏导数大小不稳定。
因此,使用雅可比矩阵进行反向传播时,由于梯度的不稳定,可能会出现 梯度消失 或 梯度爆炸 的问题,影响模型的训练效果,所以必须谨慎使用。

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



