JiaJZhong-优快云博客

原创 Self-Attention 本质上是线性变换

由于 Self-Attention 本质上是线性的，如果 Transformer 仅仅由 Self-Attention 组成，它的表示能力会受到限制。，MLP 增强了模型的特征表达能力，使 Transformer 能够学习更复杂的模式。，Self-Attention 只是对输入做了一个加权求和，并没有引入非线性变换。它只是调整了 Query-Key 之间的关系，而不会引入新的非线性模式。，使得模型可以学习到复杂的特征映射，而不是仅仅依赖于线性变换。），增加特征维度，使得模型可以在高维空间中学习更多模式。

2025-03-29 10:58:56 753

原创激活函数和批归一化（BatchNorm）

饱和型激活函数（Sigmoid/Tanh）或单边抑制型激活函数（ReLU）会破坏数据分布，导致后续层输入不稳定。即使经过卷积操作，仍需通过BatchNorm动态调整分布，确保每层输入的稳定性和梯度传播的有效性。BatchNorm与激活函数配合，既能缓解梯度消失/爆炸，又能加速收敛。

2025-03-15 20:37:19 537

原创为什么Transformer架构中选择LayerNorm而非BatchNorm

简单记录学习~

2025-03-09 09:00:13 256

原创 ALBEF的动量蒸馏（Momentum distillation）

简单记录学习~

2025-03-06 17:05:55 417

原创在transformer的嵌入位置编码中为什么要保持周期性？

Transformer 的一个关键特性是它的自注意力机制（Self-Attention），这种机制能够允许模型同时关注序列中的所有位置，不依赖于输入的顺序。保持周期性（即正弦和余弦函数的周期性）在 Transformer 的位置编码中有几个非常重要的原因，特别是在序列建模和捕捉长短期依赖方面。周期性的位置编码（通过正弦和余弦函数的多频率特性）使得不同的维度具有不同的频率。周期性自然地为每个位置分配了不同频率的“表示”，这种表示方式比简单的线性增量（如“0123456”）更能捕捉到位置之间的关系。

2025-02-07 10:53:28 930

原创 transformer中的嵌入位置编码的周期性

是 2π，但在位置编码中，我们希望不同维度的编码具有不同的周期性，以便模型能感知不同尺度的信息。可以看成是一个频率因子，不同的 i 会对应不同的 ωi，从而改变正弦函数的周期。，从而让 Transformer 既能关注局部位置关系，又能捕捉全局依赖关系。正弦函数的周期 T 满足：sin⁡(x+T)=sin⁡(x)，这个维度的周期非常长，适用于长序列的信息。我们可以画出不同维度的正弦函数，以可视化。，这个维度的周期非常短，编码对小的。这样，整个位置编码向量中同时包含了。，它控制了不同维度的周期性。

2025-02-07 10:51:52 478

原创 Transformer中的嵌入位置编码

在Transformer中，使用余弦编码或其他类似的编码方式（如正弦-余弦位置编码）而不是简单的“0123456”这种数字编码，主要是因为位置编码的目标是为模型提供位置信息，同时又不引入过多的显式顺序假设。

2025-02-07 10:36:29 581

原创常用的归一化~

简单记录学习~归一化（Normalization）是一种常见的数据预处理技术，广泛应用于机器学习和深度学习模型的训练过程中。其主要目的是将数据按某种方式转化，使其满足特定的尺度要求，从而提高模型的训练效率和精度。常见的归一化方法有、标准化（Z-Score归一化）等。

2025-01-22 11:23:34 526

原创马尔科夫链的原理

马尔科夫链是一种随机过程，其状态空间是离散的，并且满足马尔科夫性，即未来的状态仅与当前的状态相关，而与过去的状态序列无关。具体来说，对于任意时刻 t 和状态 Xt，马尔科夫链的状态转移满足：这表示，给定当前状态 Xt，系统的未来状态 Xt+1 与过去的状态（如 Xt−1,Xt−2,…）无关，完全由当前状态决定。马尔科夫链其核心思想是“无记忆性”，即当前状态仅依赖于前一个状态。马尔科夫链不仅在理论研究中有重要意义，也在许多实际应用中得到了广泛应用，如天气预测、股市分析、语音识别、推荐系统、强化学习等。

2025-01-15 10:33:58 1014

原创关于扩散模型正向过程与反向去噪的理解

正向过程逐步添加噪声的作用：逐步添加噪声使得模型能够在每一步看到噪声对数据的影响，学会如何在不同噪声级别下进行去噪。直接一步到位生成噪声会导致去噪任务非常困难，模型无法有效学习如何从不同噪声层次中恢复原始数据。反向去噪逐步进行的原因：通过逐步去噪，模型可以根据不同时间步的噪声强度恢复数据，避免从完全随机的噪声中恢复原始数据的困难。每一步的去噪策略是根据当前噪声级别动态调整的，这使得反向去噪过程更加稳定和可训练。噪声的作用。

2025-01-09 12:19:23 926

原创 SiLU激活函数

SiLU（Swish）是一种相对较新的激活函数，通过平滑的非线性特性，可以在许多任务中提供更好的性能，尤其是深度神经网络。在避免 ReLU 中的“死神经元”问题的同时，保持了较好的训练效果。尽管计算上比 ReLU 稍复杂，但其在许多实际应用中展现了相较于其他激活函数的优势，尤其是在深度学习的复杂任务中，SiLU 能够提高模型的表现。

2024-12-16 15:08:58 1179

原创常用的激活函数

简单记录学习~激活函数（Activation Function）是神经网络中用于增加非线性的关键部分，它决定了神经网络是否能够学习和表示复杂的函数。激活函数帮助网络学习输入与输出之间的复杂关系，常用的激活函数包括 Sigmoid、Tanh、ReLU 及其变种（如 Leaky ReLU、ELU、SELU 等），每种激活函数都有其特点和适用场景。

2024-12-16 15:07:30 774

原创为什么经过softmax大的数值会越大小的会越小

它通过指数函数放大差异，从而使大的数值更加显著，小的数值变得更小。这种非线性放大差异的效果，使得大值的影响力更强。大很多时，它在分母中占据主导地位。

2024-12-12 21:38:00 239

原创梯度下降如何在训练过程中逐步识别和强化重要特征

简单记录学习~假设我们有一个简单的回归问题，目标是根据输入特征预测目标值 y。初始的模型假设为一个简单的线性模型：其中 WA 和 WB 是模型的权重，初始化为随机值。

2024-12-12 21:16:27 484

原创 ResNet模型学习到的是残差

简单记录学习~

2024-12-12 15:18:49 406

原创 DETR中的匈牙利算法的意义

在 DETR 中，匈牙利算法的主要作用是解决目标匹配问题，即将模型的预测框与真实框进行最优匹配，基于此计算损失并进行反向传播。匈牙利算法通过最小化代价矩阵中的总代价，确保每个预测框与对应的真实框进行匹配，并基于匹配结果计算分类损失和回归损失，从而引导网络学习更精确的目标检测任务。C_%7Bij%7D。

2024-12-09 10:12:50 1021

原创神经网络的学习过程~

简单记录学习~

2024-12-09 08:28:11 581

原创 DETR中的嵌入位置编码

DETR通过自注意力机制和可学习的位置编码，能够在训练过程中逐步调整位置编码，使其能够有效地反映物体在图像中的实际位置。初始的随机位置编码并不直接有用，但通过梯度下降和反向传播，它们会逐渐被调整，以帮助模型更好地理解图像中的空间结构和物体位置。通过这种方式，DETR实现了从图像特征到目标位置的学习，而无需传统的区域提议或锚框机制。

2024-12-08 10:10:02 1125

原创多头注意力机制(CV)

虽然代码中通过 reshape和 permute。

2024-12-06 09:58:14 1386

原创 3×3、5×5 和 7×7 卷积核的区别

3×3：更适合捕获细节，通过堆叠获得更大感受野。5×5：适合中等感受野，平衡细节和上下文信息。7×7：用于全局感知，更适合注意力机制或任务初始阶段。选择卷积核大小需根据任务需求、网络深度和计算成本综合权衡。

2024-12-04 16:04:53 805

原创 MLP块记录学习~

MLP块是一种基础且通用的神经网络组件，广泛应用于特征提取、特征交互和分布映射等任务中。在现代深度学习架构中，MLP块通常与其他模块（如卷积层、注意力机制）结合使用，构建高效且强大的模型。

2024-12-04 09:14:50 356

原创基于窗口的注意力机制

在Swin Transformer中的划分窗口操作我个人认为实际上基于窗口的自注意力机制就是将原本的图像大小除以窗口的大小从而获得总的窗口的数量然后合并到Batch_size这个维度上。会把所有的元素按顺序重排，这样可能无法保持窗口之间正确的空间关系，导致恢复后的图像丧失空间结构。其次，图像在被拆分成窗口时可能存在边界处理、填充等问题，简单的。在划分完窗口送进Transformer块后需要调整回原feature map的样子然后再进行下一步操作。等步骤来确保每个窗口按照正确的顺序和位置恢复。

2024-12-02 20:40:42 489

原创 SPT模块的实现细节

将像素值左上移动的过程。

2024-11-30 10:20:32 329

原创注意力分数过于平滑的缺点

注意力分数过于平滑的缺点主要表现在模型难以有效聚焦关键特征、信息分辨能力下降和学习效率降低。为缓解这一问题，可以通过引入正则化方法（如注意力分布约束）或调整注意力机制（如自适应稀疏注意力）来增强注意力的聚焦能力。

2024-11-29 22:07:15 334 1

weixin_52056073的博客

原创 Self-Attention 本质上是线性变换

原创激活函数和批归一化（BatchNorm）

原创为什么Transformer架构中选择LayerNorm而非BatchNorm

原创 ALBEF的动量蒸馏（Momentum distillation）

原创在transformer的嵌入位置编码中为什么要保持周期性？

原创 transformer中的嵌入位置编码的周期性

原创 Transformer中的嵌入位置编码

原创常用的归一化~

原创马尔科夫链的原理

原创关于扩散模型正向过程与反向去噪的理解

原创 SiLU激活函数

原创常用的激活函数

原创为什么经过softmax大的数值会越大小的会越小

原创梯度下降如何在训练过程中逐步识别和强化重要特征

原创 ResNet模型学习到的是残差

原创 DETR中的匈牙利算法的意义

原创神经网络的学习过程~

原创 DETR中的嵌入位置编码

原创多头注意力机制(CV)

原创 3×3、5×5 和 7×7 卷积核的区别

原创 MLP块记录学习~

原创基于窗口的注意力机制

原创 SPT模块的实现细节

原创注意力分数过于平滑的缺点

空空如也

空空如也