
动手学深度学习—pytorch版
文章平均质量分 78
学习记录
小镇躺不平家
被误解是表达者的宿命
展开
-
【pytorch】注意力机制-1
queries和attention_weights的形状为(查询个数,“键-值”对个数)# values的形状为(查询个数,“键-值”对个数)原创 2025-01-05 16:50:15 · 1517 阅读 · 0 评论 -
【pytorch】现代循环神经网络-2
对于任意时间步t,给定一个小批量的输入数据 Xt ∈ Rn×d (样本数n,每个示例中的输入数d),并且令隐藏层激活函数为ϕ。在双向架构中,我们设该时间步的前向和反向隐状态分别为 →Ht ∈ Rn×h和←Ht ∈ Rn×h,其中h是隐藏单元的数目。**例如,填充缺失的单词、词元注释(例如,用于命名实体识别)以及作为序列处理流水线中的一个步骤对序列进行编码(例如,用于机器翻译)。其主要原因是网络的前向传播需要在双向层中进行前向和后向递归,并且网络的反向传播还依赖于前向传播的结果。原创 2025-01-03 17:56:24 · 461 阅读 · 0 评论 -
【pytorch】现代循环神经网络-1
此函数返回一个形状为(批量大小,隐藏单元个数)的张量,张量的值全部为零。原创 2025-01-02 19:21:40 · 764 阅读 · 0 评论 -
【pytorch】循环神经网络
如果说卷积神经网络可以有效地处理空间信息,那么循环神经网络则可以更好地处理序列信息。循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。原创 2024-12-30 20:39:22 · 485 阅读 · 0 评论 -
【pytorch】现代卷积神经网络
这些路径的通道数分配和第三模块中的类似,首先是含3×3卷积层的第二条路径输出最多通道,其次是仅含1×1卷积层的第一条路径,之后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。中间的两条路径在输入上执行1 × 1卷积,以减少通道数,从而降低模型的复杂性。需要注意的是,第五模块的后面紧跟输出层,该模块同NiN一样使用全局平均汇聚层,将每个通道的高和宽变成1。ResNet的前两层跟之前介绍的GoogLeNet中的一样: 在输出通道数为64、步幅为2的7×7卷积层后,接步幅为2的3×3的最大汇聚层。原创 2024-12-29 20:07:53 · 931 阅读 · 0 评论 -
【pytorch】卷积神经网络
为了获得多个通道的输出,我们可以为每个输出通道创建一个形状为ci × kh × kw的卷积核张量,这样卷积核的形状是co × ci × kh × kw。当卷积窗口滑动到新一个位置时,包含在该窗口中的部分张量与卷积核张量进行按元素相乘,得到的张量再求和得到一个单一的标量值,由此我们得出了这一位置的输出张量值。与卷积层类似,汇聚层运算符由一个固定形状的窗口组成,该窗口根据其步幅大小在输入的所有区域上滑动,为固定形状窗口(有时称为汇聚窗口)遍历的每个位置计算一个输出。在应用多层卷积时,我们常常丢失边缘像素。原创 2024-12-28 20:03:23 · 1018 阅读 · 0 评论 -
【pytorch】深度学习计算
将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。计算其输出关于输入的梯度,可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。# 用模型参数声明层。这里,我们声明两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。# 这样,在类实例化时也可以指定其他函数参数,例如模型参数params(稍后将介绍)self.hidden = nn.Linear(20, 256) # 隐藏层。原创 2024-12-22 20:42:05 · 349 阅读 · 0 评论 -
【pytorch】多层感知机
将许多全连接层堆叠在一起。每一层都输出到上面的层,直到生成最后的输出。我们可以把前L−1层看作表示,把最后一层看作线性预测器。这种架构通常称为多层感知机通常缩写为MLP。原创 2024-12-21 20:34:47 · 827 阅读 · 0 评论 -
【pytorch】softmax回归
"""在动画中绘制数据"""# 增量地绘制多条线# 使用lambda函数捕获参数# 向图表中添加多个数据点y = [y]n = len(y)原创 2024-12-12 20:55:07 · 617 阅读 · 0 评论 -
【pytorch】线性回归
第一个指定输入特征形状,即2,第二个指定输出特征形状为1计算均方误差使用的是MSELoss类,也称为平方𝐿2范数]。默认情况下,它返回所有样本损失的平均值PyTorch在optim模块中实现了该算法的许多变种。当我们(实例化一个SGD实例)时,我们要指定优化的参数 (可通过net.parameters()我们的模型中获得)以及优化算法所需的超参数字典。原创 2024-12-12 19:38:51 · 467 阅读 · 0 评论