(自用)Vision Transformer、Transformer、Swim Transformer

本文介绍了Transformer及其变种,如BERT和ViT,着重讲解了Transformer的工作原理、自注意力机制、LSTM的对比,以及SwimTransformer如何通过PatchMerging解决VIT的问题。涉及了自注意力、位置编码、跨熵损失和模型优化技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Transformer

 李宏毅老师讲解transformer:Transformer - YouTube

有关疑惑解答:

机器学习-31-Transformer详解以及我的三个疑惑和解答_transformer不收敛-优快云博客

segmentation detection语义分割

patch partition补丁分区   liner embeding 线性嵌入  patch merging 补丁合并

layernorm 层归一化

bert:是“Bidirectional Encoder Representations from Transformers”的缩写,是一种基于Transformer架构的预训练语言模型。

"Matrix"(矩阵)

LSTM是"Long Short-Term Memory"(长短期记忆)的缩写,是一种常用于处理序列数据的深度学习模型。LSTM模型可以解决传统的循环神经网络(RNN)在处理长序列时出现的梯度消失或梯度爆炸问题。它通过引入三个门机制(输入门、遗忘门和输出门)来控制信息的流动。这些门可以决定是否将新信息添加到内存单元中、是否保留旧信息以及何时从内存单元中输出信息。

交叉熵(Cross Entropy)是一种用于比较两个概率分布之间差异的度量方法。它常被用于机器学习领域中的分类任务,特别是在神经网络中的损失函数中。在分类任务中,我们通常有一个目标概率分布和一个预测概率分布。目标概率分布表示真实的类别标签,而预测概率分布表示模型对每个类别的预测概率。交叉熵衡量了两个概率分布之间的差异程度。

"Error"(误差)在计算机科学中是指预测值与真实值之间的差异。在机器学习、数据分析、图像处理等领域,误差通常用于评价模型的准确性。误差可以分为多种类型,如平均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Squared Error,MSE)、均方根误差(Root Mean Squared Error,RMSE)等。不同的误差度量方法适用于不同的场景。

"Prob. vector"(概率向量)是指包含多个元素的向量,其中每个元素表示一个事件发生的概率。概率向量常用于描述离散型随机变量的概率分布。概率向量的元素一般满足以下条件:

  1. 每个元素的取值范围在0到1之间,表示概率值;
  2. 所有元素的概率之和等于1。

token:"token"(标记)通常指

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值