ViT中的池化知识

托比-马奎尔

已于 2024-08-13 16:39:39 修改

阅读量749

点赞数 6

分类专栏： CNN 文章标签： transformer

于 2024-07-25 21:58:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_47896523/article/details/140699218

版权

CNN 专栏收录该内容

6 篇文章

订阅专栏

1. 输出池化策略

输出池化策略（Output Pooling Strategy）是指在模型，特别是像 Vision Transformer (ViT) 这样的视觉模型中，如何从网络的输出中选择或聚合信息以获得最终的表示。

1.1 常见的输出池化策略

CLS Token Pooling:

在 ViT 模型中，通常会在输入的补丁序列前添加一个特殊的分类 token（CLS token）。这个 token 的输出表示用于最终的分类任务。

用途: 在模型训练和推理时，CLS token 的输出被用作图像的最终特征表示，进行分类或其他任务。

优点: 能够通过专门设计的 token 捕捉全局信息。

示例:

pool='cls'

Mean Pooling:

描述: 对所有补丁的输出进行平均，以获得图像的整体表示。

用途: 将所有补丁的输出平均化，得到一个整体特征表示。

优点: 捕捉了输入图像的全局信息，简单且有效。

示例:

pool='mean'

Max Pooling:

描述: 对所有补丁的输出进行最大化操作，得到图像的特征表示。

用途: 提取补丁特征的最大值，用于获得全局特征。

优点: 适合在一些任务中捕捉重要的特征。

示例:

pool='max' #（虽然在 ViT 中较少使用）

Global Average Pooling:

描述: 对每个通道的所有值进行平均池化，通常用于生成最终特征。

用途: 在卷积神经网络（CNNs）中比较常见。

优点: 减少特征图的维度并保持重要的全局信息。

示例:

pool='global_avg'

Global Max Pooling:

描述: 对每个通道的所有值进行最大池化，通常用于生成最终特征。

用途: 与 Global Average Pooling 类似，取最大值。

优点: 适合在特定任务中捕捉显著的特征。

示例:

pool='global_max'

1.2 在 Vision Transformer (ViT) 中的应用

在 Vision Transformer 中，CLS Token Pooling 是最常见的池化策略。CLS token 是一个在输入序列的开头添加的特殊 token，其输出特征通常被用作整个图像的表示，以进行分类任务。这个 token 能够聚合来自所有补丁的信息，提供一个全局的特征表示。

输出池化策略 是在模型的最后阶段决定如何从多个特征中生成最终的图像表示的过程。常见的策略包括 CLS Token Pooling、Mean Pooling、Max Pooling 和其他全局池化方法。选择合适的池化策略取决于任务的需求和模型的设计目标。在 Vision Transformer 中，CLS Token Pooling 是一种常用的策略。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。