
深度学习
文章平均质量分 95
白话机器学习
10年IT从业经验,人工智能高级算法工程师、优快云博客专家、阿里云专家、《2023博客之星马龄赛道11-15年》第一名、《2023博客之星,城市赛道》长春TOP1,优快云付费资源项目实践专家
展开
-
神经网络基础部件-BN层详解
批量归一化(batch normalization)的“批量”两个字,表示在模型的迭代训练过程中,BN 首先计算小批量( mini-batch,如 32)的均值和方差。训练深度神经网络的复杂性在于,因为前面的层的参数会发生变化导致每层输入的分布在训练过程中会发生变化。而深度神经网络训练的复杂性在于每层的输入受到前面所有层的参数的影响—因此当网络变得更深时,网络参数的微小变化就会被放大。当我们不知道数据真实分布时使用正态分布的原因之一是,正态分布拥有最大的熵,我们通过这个假设来施加尽可能少的结构。原创 2023-08-12 10:40:07 · 754 阅读 · 2 评论 -
深度学习基础-优化算法详解
所谓深度神经网络的优化算法,即用来更新神经网络参数,并使损失函数最小化的算法。优化算法对于深度学习非常重要,如果说网络参数初始化(模型迭代的初始点)能够决定模型是否收敛,那优化算法的性能则直接影响模型的训练效率。了解不同优化算法的原理及其超参数的作用将使我们更有效的调整优化器的超参数,从而提高模型的性能。本文的优化算法特指: 寻找神经网络上的一组参数 $\theta $,它能显著地降低损失函数JθJ(\theta )Jθ,该损失函数通常包括整个训练集上的性能评估和额外的正则化项。原创 2023-08-12 10:35:47 · 433 阅读 · 1 评论 -
深度学习基础-损失函数详解
大多数深度学习算法都会涉及某种形式的优化,所谓优化指的是改变xxx以最小化或最大化某个函数fxf(x)fx的任务,我们通常以最小化fxf(x)fx指代大多数最优化问题。在机器学习中,损失函数是代价函数的一部分,而代价函数是目标函数的一种类型。损失函数): 用于定义单个训练样本预测值与真实值之间的误差代价函数): 用于定义单个批次/整个训练集样本预测值与真实值之间的累计误差。目标函数): 泛指任意可以被优化的函数。损失函数定义。原创 2023-08-12 10:12:51 · 799 阅读 · 0 评论 -
深度学习基础-参数初始化详解
我们知道神经网络模型一般是依靠随机梯度下降优化算法进行神经网络参数更新的,而神经网络参数学习是非凸问题,利用梯度下降算法优化参数时,网络权重参数的初始值选取十分关键。首先得明确的是现代的网络参数初始化策略是简单的、启发式的。设定改进的初始化策略是一项困难的 任务,因为神经网络优化至今还未被很好地理解(即模型训练过程是一个黑盒)。大多数初始化策略基于在神经网络初始化时实现一些很好的性质。然而,我们并没有很好地理解这些性质中的哪些会在学习开始进行后的哪些情况下得以保持。原创 2023-08-12 10:09:17 · 515 阅读 · 1 评论 -
深度学习之反向传播与梯度下降详解
前向传播在神经网络定义的计算图中按顺序计算和存储中间变量,它的顺序是从输入层到输出层。反向传播按相反的顺序(从输出层到输入层)计算和存储神经网络的中间变量和参数的梯度。在训练神经网络时,在初始化模型参数后,我们交替使用前向传播和反向传播,基于反向传播计算得到的梯度,结合随机梯度下降优化算法(或者Adam等其他优化算法)来更新模型参数。深度学习模型训练比预测需要更多的内存。虽然随机梯度下降法(SGD)简单有效,但它需要仔细调整模型超参数,特别是优化中使用的学习率,以及模型参数的初始值。原创 2023-08-12 10:04:29 · 1897 阅读 · 0 评论 -
随机梯度下降法的数学基础
方向导数是各个方向上的导数。偏导数连续才有梯度存在。偏导数构成的向量为梯度。梯度的方向是方向导数中取到最大值的方向,梯度的值是方向导数的最大值。原创 2023-08-12 10:00:48 · 65 阅读 · 0 评论 -
深度学习数学基础-概率与信息论
概率论是用于表示不确定性声明的数学框架。它不仅提供了量化不确定性的方法,也提供了用于导出新的不确定性声明statement)的公理。概率论的知识在机器学习和深度学习领域都有广泛应用,是学习这两门学科的基础。条件概率()就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为PA∣BP(A|B)PA∣B,读作“A 在 B 发生的条件下发生的概率”。联合概率表示两个事件共同发生的概率。A与B的联合概率表示为PA∩BP(A\cap B)PA∩B或者PAB。原创 2023-08-12 09:57:30 · 323 阅读 · 0 评论 -
深度学习基础讲解——机器学习的基本原理
深度学习是机器学习的一个特定分支。我们要想充分理解深度学习,必须对机器学习的基本原理有深刻的理解。大部分机器学习算法都有超参数(必须在学习算法外手动设定机器学习本质上属于应用统计学,其更加强调使用计算机对复杂函数进行统计估计,而较少强调围绕这些函数证明置信区间;因此我们会探讨两种统计学的主要方法:频率派估计和贝叶斯推断。同时,大部分机器学习算法又可以分成监督学习和无监督学习两类;本文会介绍这两类算法定义,并给出每个类别中一些算法示例。原创 2023-08-12 09:48:29 · 287 阅读 · 0 评论