经典网络—CCT:紧凑型卷积Transformer
1. 引言
近年来,Transformer 在计算机视觉(CV)领域的应用越来越广泛,其中 ViT(Vision Transformer)凭借其强大的特征学习能力在图像分类任务上取得了突破。然而,ViT 依赖大规模数据训练,计算资源需求高。为了解决这些问题,Compact Convolutional Transformer (CCT) 被提出,它结合了 卷积(CNN) 和 Transformer 的优势,提高了计算效率并减少了数据需求。
2. CCT 简介
CCT 由论文 “Compact Convolutional Transformers for Efficient Image Classification” 提出。它的主要特点包括:
- 使用卷积进行 Patch 嵌入,避免了 ViT 直接线性投影的高计算成本。
- 移除位置编码,改为利用卷积的局部感受野特性。
- 层归一化替换为批归一化,提高训练稳定性。
- 可适用于小规模数据集,例如 CIFAR-10、CIFAR-100 等。
3. CCT 关键技术
3.1 卷积 Patch 嵌入
与 ViT 直接使用线性投影不同,CCT 先用多个卷积层提取局部特征,然后再输入 Transformer 进行全局建模。这种方式:

最低0.47元/天 解锁文章
3016

被折叠的 条评论
为什么被折叠?



