
NLP
文章平均质量分 95
背水
高贵的单纯,静穆的伟大
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Transformer
4万字详细讲解Transformer!原创 2025-01-27 16:51:17 · 1092 阅读 · 0 评论 -
seq2seq以及注意力机制
本文讲解seq2seq及其注意力机制原创 2025-01-24 18:59:03 · 1311 阅读 · 0 评论 -
LSTM数学原理以及代码实现
LSTM(Long Short-Term Memory)是一种特殊的循环神经网络(RNN),旨在解决传统 RNN 在长序列训练中的梯度消失和梯度爆炸问题。,包括三个门:输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。这些门通过 Sigmoid 函数(输出范围。(输入门、遗忘门、输出门)来控制信息的流动,从而更好地捕捉长期依赖关系。输入门决定哪些新信息将存储到细胞状态。遗忘门决定哪些信息从细胞状态。输出门决定哪些信息从细胞状态。)来控制信息的流动。原创 2025-01-20 19:26:03 · 1321 阅读 · 0 评论 -
多层 RNN原理以及实现
注意:下方右图仅仅是逻辑上展开的数据流,其中不同世间步上的同一层,用的是同一个权重矩阵。下面是一个可视化的结构显示图:其中每一层神经元都要有两个方向的输出,一个是向。,每一层的输出作为下一层的输入,从而逐层提取更高层次的抽象特征。首先,单层 RNN 的计算过程如下。层的 RNN,每一层的隐藏状态为。以下是一个具体的例子,展示当。的输入、输出以及参数的作用。,单层 RNN 的隐藏状态。多层 RNN 的核心思想是。时,PyTorch 中。最终,整个序列的输出为。的下一层传送,另一个是向。每一层的初始隐藏状态。原创 2025-01-20 18:30:03 · 1400 阅读 · 0 评论 -
Word2Vec中的CBOW模型训练原理详细解析
CBOW模型的训练目标是利用一个单词周围的上下文单词来预测该单词本身。具体来说,给定当前单词的上下文单词,通过训练神经网络来最大化当前单词出现在这些上下文单词中的概率。假设有一个词汇表,大小为VVV,表示为Ww1w2wVWw1w2...wV。对于每个单词wiw_iwixix^{(i)}xi:输入的one-hot编码向量,维度为V×1V\times1V×1,仅在第iii个位置为1,其余为0。viv_ivi。原创 2025-01-17 19:35:06 · 1079 阅读 · 1 评论 -
循环神经网络RNN-数据流动
主要介绍了RNN中的数据流原创 2025-01-16 10:30:46 · 780 阅读 · 0 评论