深度理解机器学习10-训练神经网络

最新推荐文章于 2025-09-17 14:51:41 发布

原创最新推荐文章于 2025-09-17 14:51:41 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

深度学习专栏收录该内容

45 篇文章

订阅专栏

文章介绍了神经网络的工作原理，包括输入如何通过加权连接传递，激活函数的作用，以及权重在模型精度中的重要性。线性回归作为示例解释了模型训练过程，提到了损失函数用于衡量预测误差，并详细阐述了梯度下降算法如何寻找最佳权重以最小化损失。最后，讨论了神经网络中非线性激活函数的引入及其对优化的影响。

训练神经网络

一旦输入被提供给神经网络，它就进入输入层（这是一个存在的接口），将输入传递给下一层。如果存在隐藏层，则输入通过加权连接发送到隐藏层的激活节点。激活节点接收到的所有输入的加权和是通过将输入与其各自的权重相乘，并将这些值与偏置相加来计算的。激活函数根据加权和生成激活值，并将其传递给下一层的节点。如果下一层是另一个隐藏层，则它使用来自前一隐藏层的激活值作为输入，并重复激活过程。然而，如果处理层是输出层，则输出由神经网络提供。

计算权重

权重在多层神经网络中起着非常重要的作用，因为改变单个连接的权重可以完全改变分配给其他连接的权重，从而改变由执行层产生的输出。拥有最佳权重对于创建精确的深度学习模型是必要的。深度学习模式能够自己找到最佳权重。为了更好地理解这一点，让我们先以线性回归为例。线性回归是一种有监督的机器学习算法，它适用于解决回归问题（输出为连续数值形式的数据集，如房屋售价）。该算法假设输入（特征）和输出（目标）之间存在线性关系。基本上，它认为存在一条精确描述输入和输出变量之间关系的最佳拟合线。

损失函数

损失函数有时也被称为成本函数。对于分类问题，损失函数计算特定类别的预测概率和类别本身之间的差。例如，假设你有一个二元分类问题，需要预测房子是否会被出售。只有两个输出——“是”和“否”。当分类模型适用于该数据时，它将预测数据实例落入“是”类别或“否”类别的概率。假设“是”类别的值为1，“否”的值为0。因此，如果输出概率接近1，它将属于“是”类别。该模型的损失函数将测量这种差异。

梯度下降算法

通过损失函数评估模型性能的过程是模型独立执行的过程。

这就是梯度下降算法的工作原理。该算法将损失函数与模型系数和y截距的可能值进行比较，就像你下山一样。它以模型系数的指定值开始——海拔5000米的地方。它计算此点的梯度。这个梯度告诉模型应该向哪个方向移动来更新系数，以便更接近全局最小值，这是最终目标。迈出一步后，到达了一个新的点，有了一个新的模型系数。它重复计算梯度、获得移动方向、更新系数和采取另一步骤的过程。它会检查此步是否为它提供了最陡的下降。每走一步，它都会得到一个新的模型系数，并计算出该点的梯度。重复这个过程，直到梯度值在多次试验中没有改变。这意味着该算法已达到全局最小值并已收敛。

在神经网络中，梯度下降算法和损失函数一起运行，以找到作为权重和偏置分配给连接的值。通过使用梯度下降算法最小化损失函数来更新这些值，与线性回归模型中的情况相同。此外，在线性回归的情况下，由于损失函数是碗形的，所以总是只有一个最小值。这使得梯度下降算法很容易找到它，并确保这是最低点。然而，就神经网络而言，事情并没有那么简单。神经网络使用的激活函数用于将非线性引入到情况中。