梯度下降与随机梯度下降:优化算法详解
1. 梯度下降基础
在机器学习中,梯度下降是一种常用的优化算法,用于寻找使损失函数最小化的参数值。为了更好地理解和实现梯度下降,我们需要了解一些基础概念。
1.1 偏置技巧
在设计矩阵中添加一列全为 1 的向量,可以将偏置项嵌入到权重矩阵中,从而简化评分函数。例如,原始评分函数可能为 (f(x_i, W) = Wx_i + b),通过偏置技巧,我们可以将其重写为 (f(x_i, W) = Wx_i),其中偏置项 (b) 被包含在权重矩阵 (W) 中。
以“Animals”数据集为例,我们处理的是 (32×32×3) 的图像,每个图像有 3072 个像素,即 (x_i) 是一个 ([3072×1]) 的向量。添加一列全为 1 的向量后,(x_i) 扩展为 ([3073×1]) 的向量,权重矩阵 (W) 也相应地从 ([3×3072]) 扩展为 ([3×3073])。这样,我们可以将偏置视为权重矩阵中的可学习参数,而无需单独跟踪。
下面是偏置技巧的示意图:
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A([原始权重矩阵和偏置向量]):::startend --> B(分离处理):::process
C([嵌入偏置向量后的权重矩阵]):::startend -
超级会员免费看
订阅专栏 解锁全文
4637

被折叠的 条评论
为什么被折叠?



