Transformer
李宏毅老师讲解transformer:Transformer - YouTube
有关疑惑解答:
机器学习-31-Transformer详解以及我的三个疑惑和解答_transformer不收敛-优快云博客
segmentation detection语义分割
patch partition补丁分区 liner embeding 线性嵌入 patch merging 补丁合并
layernorm 层归一化
bert:是“Bidirectional Encoder Representations from Transformers”的缩写,是一种基于Transformer架构的预训练语言模型。
"Matrix"(矩阵)
LSTM是"Long Short-Term Memory"(长短期记忆)的缩写,是一种常用于处理序列数据的深度学习模型。LSTM模型可以解决传统的循环神经网络(RNN)在处理长序列时出现的梯度消失或梯度爆炸问题。它通过引入三个门机制(输入门、遗忘门和输出门)来控制信息的流动。这些门可以决定是否将新信息添加到内存单元中、是否保留旧信息以及何时从内存单元中输出信息。
交叉熵(Cross Entropy)是一种用于比较两个概率分布之间差异的度量方法。它常被用于机器学习领域中的分类任务,特别是在神经网络中的损失函数中。在分类任务中,我们通常有一个目标概率分布和一个预测概率分布。目标概率分布表示真实的类别标签,而预测概率分布表示模型对每个类别的预测概率。交叉熵衡量了两个概率分布之间的差异程度。
"Error"(误差)在计算机科学中是指预测值与真实值之间的差异。在机器学习、数据分析、图像处理等领域,误差通常用于评价模型的准确性。误差可以分为多种类型,如平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Squared Error,MSE)、均方根误差(Root Mean Squared Error,RMSE)等。不同的误差度量方法适用于不同的场景。
"Prob. vector"(概率向量)是指包含多个元素的向量,其中每个元素表示一个事件发生的概率。概率向量常用于描述离散型随机变量的概率分布。概率向量的元素一般满足以下条件:
- 每个元素的取值范围在0到1之间,表示概率值;
- 所有元素的概率之和等于1。
token:"token"(标记)通常指