经典网络—CCT:紧凑型卷积Transformer

经典网络—CCT:紧凑型卷积Transformer

1. 引言

近年来,Transformer 在计算机视觉(CV)领域的应用越来越广泛,其中 ViT(Vision Transformer)凭借其强大的特征学习能力在图像分类任务上取得了突破。然而,ViT 依赖大规模数据训练,计算资源需求高。为了解决这些问题,Compact Convolutional Transformer (CCT) 被提出,它结合了 卷积(CNN)Transformer 的优势,提高了计算效率并减少了数据需求。

2. CCT 简介

CCT 由论文 “Compact Convolutional Transformers for Efficient Image Classification” 提出。它的主要特点包括:

  • 使用卷积进行 Patch 嵌入,避免了 ViT 直接线性投影的高计算成本。
  • 移除位置编码,改为利用卷积的局部感受野特性。
  • 层归一化替换为批归一化,提高训练稳定性。
  • 可适用于小规模数据集,例如 CIFAR-10、CIFAR-100 等。

3. CCT 关键技术

3.1 卷积 Patch 嵌入

与 ViT 直接使用线性投影不同,CCT 先用多个卷积层提取局部特征,然后再输入 Transformer 进行全局建模。这种方式:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值