（自用）Vision Transformer、Transformer、Swim Transformer

yyy超棒呀

已于 2024-01-12 13:35:32 修改

阅读量1.8k

点赞数 18

文章标签： transformer 深度学习人工智能计算机视觉机器学习学习

于 2024-01-12 13:26:19 首次发布

本文链接：https://blog.youkuaiyun.com/qq_44185614/article/details/135506950

版权

本文介绍了Transformer及其变种，如BERT和ViT，着重讲解了Transformer的工作原理、自注意力机制、LSTM的对比，以及SwimTransformer如何通过PatchMerging解决VIT的问题。涉及了自注意力、位置编码、跨熵损失和模型优化技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Transformer

李宏毅老师讲解transformer:Transformer - YouTube

有关疑惑解答：

机器学习-31-Transformer详解以及我的三个疑惑和解答_transformer不收敛-优快云博客

segmentation detection语义分割

patch partition补丁分区 liner embeding 线性嵌入 patch merging 补丁合并

layernorm 层归一化

bert:是“Bidirectional Encoder Representations from Transformers”的缩写，是一种基于Transformer架构的预训练语言模型。

"Matrix"（矩阵）

LSTM是"Long Short-Term Memory"（长短期记忆）的缩写，是一种常用于处理序列数据的深度学习模型。LSTM模型可以解决传统的循环神经网络（RNN）在处理长序列时出现的梯度消失或梯度爆炸问题。它通过引入三个门机制（输入门、遗忘门和输出门）来控制信息的流动。这些门可以决定是否将新信息添加到内存单元中、是否保留旧信息以及何时从内存单元中输出信息。

交叉熵（Cross Entropy）是一种用于比较两个概率分布之间差异的度量方法。它常被用于机器学习领域中的分类任务，特别是在神经网络中的损失函数中。在分类任务中，我们通常有一个目标概率分布和一个预测概率分布。目标概率分布表示真实的类别标签，而预测概率分布表示模型对每个类别的预测概率。交叉熵衡量了两个概率分布之间的差异程度。

"Error"（误差）在计算机科学中是指预测值与真实值之间的差异。在机器学习、数据分析、图像处理等领域，误差通常用于评价模型的准确性。误差可以分为多种类型，如平均绝对误差（Mean Absolute Error，MAE）、均方误差（Mean Squared Error，MSE）、均方根误差（Root Mean Squared Error，RMSE）等。不同的误差度量方法适用于不同的场景。

"Prob. vector"（概率向量）是指包含多个元素的向量，其中每个元素表示一个事件发生的概率。概率向量常用于描述离散型随机变量的概率分布。概率向量的元素一般满足以下条件：