- 博客(8)
- 收藏
- 关注
原创 【深度学习八股总结】RNN相关问题
依赖于参数W,因此第𝑡时刻的损失函数。是行向量,其中第𝑖个元素的值为。RNN损失函数关于权重矩阵。为隐藏层到隐藏层的权重矩阵,是输入层到隐藏层的权重矩阵,那么损失函数关于权重矩阵。
2025-06-11 16:34:16
573
原创 【深度学习八股总结】CNN相关问题
通道数的压缩与扩展:1x1 卷积核可以在不改变空间分辨率的情况下,进行特征图通道数的变换,可以压缩通道数减小计算量和参数量,也可以扩展通道数增加网络的表达能力。实现跨通道信息交互:1x1 卷积核通过将输入特征图的每个激活值的不同通道进行线性加权,实现了通道间的线性变换,将不同通道的特征信息进行混合,进而生成新的特征图。对于一个二维卷积,输入为 3×3,卷积核大小为 2×2,试将卷积操作重写为仿射变换的形式。1)定义卷积操作:假设使用无填充的二位卷积操作,步长为 1,假设输入为一个 3×3 的矩阵。
2025-06-11 16:33:10
839
原创 【深度学习八股总结】常用激活函数
替换$\boldsymbol{x} $ 为 $\boldsymbol{x} - c $ 将所有的输入平移了一个常量,不会改变相对大小。(b)精度损失:由于计算机使用有限精度浮点数,在如果分母是一组具有大差异的数值,那么进行求和时会出现累加误差。(a)数值溢出:由于指数函数的增长速度太快。当输入的数值较大时,指数函数会非常大,导致溢出。请分析该替换是否能解决问题,并请证明该替换并不影响 softmax 函数的值。,新的输入的数值都变得接近于零或更小,避免计算指数函数求和时发生溢出。
2025-05-28 15:17:45
617
原创 【深度学习八股总结】Batch/Layer/Instance/Group Normalization
与Batch Normalization不同,Layer Normalization在每个样本上独立进行,而不是在每个批次上进行。对每个样本的所有特征进行归一化,如N*C*H*W,对每个C*H*W进行归一化,得到N个均值和方差。用于 4D 输入(如卷积层的输出)输入形状为b*c*h*w,即在每个通道上进行normalization,求b*h*w内的像素求均值和方差,输出是1*c*1*1。需要注意的是BN测试时和训练时不同,测试时使用的是全局训练数据的滑动平均的均值和方差。,则每个组的特征张量为。
2025-05-28 15:15:47
477
原创 【深度学习八股总结】MLP相关问题
反向传播的核心是计算损失函数相对于每层参数的梯度,每一层的梯度需要由后一层的误差项计算。(a)简化梯度计算:误差项可以简化梯度的计算过程,将复杂的链式法则分解成逐层的计算。通过误差项的设计,每一层的误差项由前一层的误差项、权重和激活函数导数计算,反向传播只需要通过误差项逐层传递,并累积梯度即可更新参数。(c)传递误差信息:误差项从输出层开始计算,每一层的误差项由后一层的误差项决定,误差项通过神经网络逐层向前传递了误差信息。在数值微分中,对自变量增加一个扰动量,计算函数的变化率,用来估计在该点的导数值。
2025-05-26 17:35:48
2068
原创 【深度学习八股总结】分类问题汇总
(a)准确率在类别不平衡时没有意义:若数据集中某个类别的样本数量远多于其他类别,分类器会倾向于预测这个多数类,从而导致准确率虚高。(b)准确率不能反映分类器在不同类别上的具体表现,比如在结果是猫的图片中,真正是猫的比例有多少。对于两类分类问题,如果某个方法的 ROC 曲线与从原点到(1,1)的对角线重合,则这个方法没有预测能力,等同于随机猜测,为什么?ROC 曲线是通过绘制不同阈值下的真正率和假正率来评估分类器的性能。如果 ROC 曲线与对角线重合,那么对任何给定的阈值,真正率和假正率均相等,说明分类器不能
2025-05-26 16:38:42
336
原创 【深度学习八股总结】机器学习模型基础概念
训练误差:模型在训练数据上输出的预测值与真实值之间的差异。泛化误差:模型在新样本上输出的预测值与真实值之间的差异。泛化误差通常使用偏差-方差分解中的方差项进行估算。RfExy∼prxyy−fx2RfExy∼prxyy−fx2对于单个样本xxx,在不同训练集DD得到模型fD𝒙fDx和最优模型f∗𝒙f^\ast(𝒙)f∗xEDfDx−f∗x2EDfDx−f∗x2E。
2025-05-25 18:06:21
1663
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅