- 博客(6)
- 收藏
- 关注
原创 《Attention is all you need》
论文从现有序列模型的限制和注意力机制的进展切入,提出以自注意力为核心的Transformer模型。然后,通过实验验证了模型的高效性和优越性能。1. 完全基于自注意力机制**:模型完全依赖注意力机制,摒弃了传统的RNN和CNN结构,避免了顺序计算的限制,极大提升了并行处理效率。3. 模型架构:详细介绍了Transformer的架构,包括编码器、解码器、注意力机制、多头注意力等模块的工作方式。2. 多头注意力机制**:引入多头注意力,以便在不同子空间中关注序列的不同方面,提升了模型的表达能力。
2024-10-30 11:03:27
389
1
原创 1、《Rich feature hierarchies for accurate object detection and semantic segmentation-v5》
传统的目标识别方法在当时的数据集上性能逐渐平缓,一般效果较好的都是复杂的集成系统,(由多个低水平的特征组成高水平特征)。(1)特征可视化:非参数方法是选择一个特定的神经元(第五层)然后输入约1000万个候选区域进行评分,由高到低排序后再有非极大抑制选择候选框,最后展示得分最高的区域实现可视化。2、Introduction(引言):介绍了目标检测和语义分割领域的背景,强调了现有方法的不足,尤其是传统计算机视觉方法在特征提取上的瓶颈。(2)使用深度卷积神经网络(基于AlexNet)提取候选区域的特征。
2024-10-30 10:52:29
194
原创 卷积核在卷积层中的作用
这是因为在卷积神经网络中,通常情况下,卷积核的深度(即通道数)是由网络的架构和设计决定的,并且往往在网络的不同层中是固定的。通常情况下,每个通道对应一个不同的卷积核,每个卷积核会学习捕捉输入数据的不同特征。假设我们有一个5×5的彩色图像(通道数为3),和一个3×3×3 的卷积核,我们需要计算每个通道的卷积。通常情况下,在卷积神经网络中,一个卷积层的输出通道数(或者说特征图的数量)等于该层使用的卷积核的数量。例如,当我们说一个层有一个 3x3 的卷积核时,我们默认了这个卷积核的深度与输入数据的通道数相同。
2024-05-20 15:42:28
906
1
原创 梯度下降、反向传播
首先举个例子是,当前你拥有一个神经网络模型用于预测某一个值,此时输出层包括很多个神经元都给出了自己的预测值,我们要计算预测值(模型输出)与实际标签之间的差异,那么此时损失函数可以设置为均方误差。前向传播用于计算模型的输出,而反向传播用于沿着网络反向传播损失,并计算每个参数的梯度。这样,我们就可以得到每个参数的梯度,然后使用梯度下降来更新参数,从而最小化损失函数。在使用梯度下降进行优化模型,以使损失函数最小化过程中,我们需要知道每个参数对损失函数的影响程度,也就是梯度。是学习率,它决定了参数更新的步长。
2024-05-16 21:49:48
2381
原创 pytorch中池化层实例以及与池化层与卷积层区别
1、卷积操作: 在卷积操作中,卷积核在输入图像上进行滑动,通过与输入图像的每个位置进行点乘并求和,从而计算出输出特征图的每个像素值。2、池化操作: 在池化操作中,池化窗口在输入图像上进行滑动,但是池化操作不涉及可学习的参数。2、平均池化(Average Pooling): 在平均池化中,池化窗口在输入数据上滑动,每次取窗口内的平均值作为输出。总的来说,池化层通过保留关键特征、降低数据维度、减少计算量等方式,为神经网络模型提供了更加高效和有效的特征表示,是深度学习中不可或缺的一部分。四、结果以及完整代码。
2024-05-11 22:51:07
423
1
原创 pytorch卷积层中通道的理解以及实例
这中间还有很多容易出现的错误,例如【AssertionError: Input tensor input format are different】是由于writer.add_image和writer.add_images之间的区别。本次问题来源于B站小土堆pytorch入门-神经网络-卷积层,代码也是视频中提供的例子。二、同一个卷积层中输入的通道和输出的通道数目要一致吗?
2024-05-11 00:00:23
1227
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅