wangxiaobin1314-优快云博客

转载注意力机制与自注意力机制

本文讲解深度学习中的注意力机制与自注意力机制。这篇博客写的非常好，所以本文就是在此基础上，添加了多头自注意力机制的介绍。注意力模型最近几年在深度学习各个领域被广泛使用，无论是图像处理、语音识别还是自然语言处理的各种不同类型的任务中，都很容易遇到注意力模型的身影。所以，了解注意力机制的工作原理对于关注深度学习技术发展的技术人员来说有很大的必要。

2025-07-05 19:55:47 2

在ELMo（Embeddings from Language Models）模型中，。它们共同工作，将单词的原始字符序列编码成一个固定长度的稠密向量，作为该单词的初始输入表示。每个单词被视为一个字符序列（例如，“cat” -> [‘c’, ‘a’, ‘t’]）。每个字符被映射到一个小的字符嵌入向量（Character Embedding）。过程：在字符嵌入序列上滑动多个不同宽度（例如 2, 3, 4 个字符）的卷积核（filters）。每个卷积核学习检测特定的局部字符模式（如前缀、后缀、词根片段等）。

2025-06-22 09:31:30 949

原创 ELMo（Embeddings from Language Models）详解

第一层LSTM的输入序列：，其中为经过MLP层后的输出层数：共计层，第层的参数用上标（）标记隐藏层状态维度：每层前向/后向LSTM的隐藏状态维度为合并操作：双向LSTM的输出通常将前向和后向隐藏状态拼接（记作），维度为。

2025-06-16 09:37:02 730

原创 CBOW和Skip-gram算法十问

一般情况下，CBOW 的训练速度比 Skip-gram 更快。因为 CBOW 是根据上下文预测目标词，上下文通常包含多个词，，梯度更新更集中，模型可以利用这些多个词的信息快速学习到词与词之间的关系；而 Skip-gram 是从目标词预测上下文，在训练时需要对每个目标词预测多个上下文词，需对每个上下文词单独计算损失，参数更新次数更多，计算量相对较大，所以训练速度较慢。

2025-05-21 09:28:20 647

原创 Word2vec之CBOW和Skip-gram

通过公式（51）可知，采用分层softmax后，计算输出层的时间复杂度从O(V)变为了O(L(w))，即O(log(V))。CBOW 算法根据上下文单词来预测目标单词，Skip - gram 算法则根据目标单词来预测上下文单词，它们都能够有效地利用文本中的上下文信息来学习单词的表示，从而更好地理解单词在不同语境中的语义。假设词汇表中的单词量为V，当V数量很大时，会极大增加开销、复杂度、降低模型的训练效率，此时的算法复杂度为O(V)。是W的一行，也是W的唯一一个导数不为0的行，是上下文单词的输入向量。

2025-05-20 09:30:52 1031

原创论文《Learning Phrase Representations using RNN Encoder–Decoderfor Statistical Machine Translation》解析

论文《Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation》是由Kyunghyun Cho等人于2014年发表的。该论文主要有两个贡献：(1)是提出了RNN Encoder-Decoder架构，首次将Seq2Seq模型引入到统计机器翻译（SMT），为后溪基于神经网络的机器翻译奠定了基础；

2025-04-21 13:34:20 1195

原创 LSTM算法十问

核心结构PyTorch通过nn.LSTMinput_size：输入特征维度（如词向量维度）：隐藏层神经元数量num_layers：LSTM堆叠层数：输入数据的维度顺序（默认False，建议设为True）示例代码# 初始化隐藏状态和细胞状态# LSTM前向传播out = self.fc(out[:, -1, :]) # 取最后一个时间步的输出return out关键参数说明输入输出维度：输入数据形状为，输出为隐藏状态初始化：需手动初始化h0（隐藏状态）和c0（细胞状态），默认全零初始化。

2025-04-12 23:47:19 645

原创 LSTM思想解析—论文精读（Learning to Forget: Continual Prediction with LSTM）

遗忘门的提出是为了解决：输入数据是连续的数据流，造成激活函数h(x)饱和，从而出现梯度消失或记忆细胞退化为普通BPTT的问题。遗忘门的作用就是让记忆单元可以在适当的时间将状态进行重置，从而丢弃那些内容过时且无用的信息。图2上图为添加遗忘门后的LSTM结构。在图中，表示遗忘门。与其他门的计算方式一样，遗忘门的计算公式为：（10）激活函数为sigmoid函数，因此的取值范围为0~1。根据上图红框中的公式，公式（6）变为了：（11）

2025-03-25 11:51:30 1334

原创 LSTM思想解析—论文精读（Long Short-Term Memery）

最近在学习LSTM(Long Short-term Memory )，网上的文章基本上都是基于下图对LSTM进行介绍。然而，有几个问题一直困扰着我：LSTM与相比，它能够有效处理长依赖问题（long time lags），原因是什么呢？LSTM的网络架构为什么要设计成这样呢？引入门控机制的原因是啥呢？为了解答上述疑惑，我翻阅网上的文章、咨询DeepSeek和豆包，均没有找到我想要的答案。因此，我决定阅读原论文，通过论文去了解作者的思想。

2025-03-14 21:10:10 1593

原创 RNN循环神经网络之RNN十问

回忆一下RNN的基本结构。例如，在进行文本处理时，序列数据中包含了N条句子（这个N条句子之间相互独立，无先后顺序），一个 batch 可能包含了其中的若干条句子，样本间是可以并行计算的。随着序列长度的增加，较早时间步的信息在经过多次线性变换和非线性激活后，会逐渐被稀释，难以完整地保留和传递到后续时间步，导致模型对长序列中的早期信息记忆能力下降。如果不是按照batch输入，而是一个字一个字依次输入模型，计算梯度时采用的是随机梯度下降法，那么梯度的估计可能会非常不稳定，因为单个样本的特征可能具有较大的随机性。

2025-02-06 22:27:03 1400