小猫伏特加-优快云博客

原创深度学习之Transformer模型

本文通过学习李沐基于pytorch的深度学习课程第68课Transformer，对该模型的原理做出总结并展示代码，作为本人学习笔记。

2025-04-16 17:10:04 1277

原创李沐《动手学深度学习v2》64-67注意力机制总结

上节课讲的使用高斯核来建立query和keys之间的关系函数，现在将query和keys放入注意力评分函数（Attention scoring function）中，然后将该函数的输出结果放入softmax函数中。这样我们可以得到注意力权重，最后注意力权重的值的加权和作为输出。

2025-04-11 17:40:29 883

本文对《动手学深度学习v2》课程关于循环神经网络的所有部分做一个总结。目录一、循环神经网络RNN1. 简介2. 循环神经网络核心公式3. 困惑度（perplexity）4. 梯度剪裁（Gradient Clipping）二、实现RNN网络1. 从零开始实现2. 简洁实现三、GRU门控循环单元1. 简介2. 代码实现四、LSTM长短期记忆网络1. 简介2. LSTM对比GRU3. 代码实现五、深层循环神经网络1. 简介2. 代码实现六、双向循环神经网络1. 简介2. 代码实现七、总结循环神经网络（

2025-03-30 16:26:03 1992

原创李沐【动手学深度学习v2】25 使用块的网络 VGG

跟AlexNet相比，全连接层没什么区别，卷积层数量上VGG使用了八个卷积层，AlexNet使用五个卷积层，所以，用更小的卷积核窗口更深层次的网络比使用较大卷积核但较浅的网络，效果更好。VGG模型主要采用3x3的小卷积核，而不是常见的5×5或7×7，减少了参数数量，同时通过堆叠多个小卷积核保持了与大卷积核相同的感受野，增强了非线性表达能力。VGG模型通过堆叠多个3x3卷积层和2x2最大池化层，构建了一个非常深的网络（通常是16层或19层），从而提升了特征提取的能力。二、VGG模型的特点。

2025-03-14 11:28:28 735

原创李沐【动手学深度学习v2】24 深度卷积神经网络 AlexNet

首先，定义AlexNet模型，在这里使用的仍然是是Fashion-MNIST数据集，因为训练ImageNet需要几个小时甚至几天，这里仅快速演示一下AlexNet网络，所以输入的是单通道（灰度）图像，最后输出层的类别数为10。第二卷积层（Conv2）的卷积核大小为5x5，数量256，步长为1，填充为2，输出尺寸为27x27x256，因使用填充（padding）所以特征图尺寸不变，同时增加通道数以提取更多特征。AlexNet和上一节讲解的LeNet网络的设计理念和架构非常相似，但也存在很大的差异。

2025-03-13 11:35:55 1045

原创李沐【动手学深度学习v2】23经典卷积神经网络LeNet

其中，比较重要的层分别是：Conv2d是卷积层，输入到输出的过程中使用了适当的填充（padding），使得输出的高度和宽度与输入相同，且通道数增加6；Flatten将多维张量展平为一维向量，输入形状为 (1，16，5，5)，展平后为 (1，16*5*5) = (1，400)；LeNet网络的输入层通常为通道数为1的灰度图像，其大小为32×32，输出层是一个由10个神经元组成的softmax高斯连接层，可以用来做分类任务，例如手写数字0-9的分辨。最后，指定学习率和epoch，调用训练函数开始训练。

2025-03-10 16:13:47 2053

qq_53879585的博客

原创深度学习之Transformer模型

原创李沐《动手学深度学习v2》64-67注意力机制总结

原创李沐【动手学深度学习v2】54-59循环神经网络总结

原创李沐【动手学深度学习v2】25 使用块的网络 VGG

原创李沐【动手学深度学习v2】24 深度卷积神经网络 AlexNet

原创李沐【动手学深度学习v2】23经典卷积神经网络LeNet

原创【动手学深度学习v2】李沐课程19-22卷积神经网络总结

原创动手学深度学习 PyTorch版15实战 Kaggle房价预测学习笔记

原创遇见 error: the following arguments are required: --model/-m问题如何解决？

空空如也

C语言unsigned的使用问题