【零基础讲论文源码】CVT:Introducing Convolutions to Vision Transformers

目前这个系列会开两个方向, cv transformer 和OCR方向。

Transformer方向

OCR方向

  • DBnet解读【链接】(正在制作中。。。)
  • PP_OCR【链接】(待续)
  • SRN【链接】
  • read like human【链接】

整体介绍:

CvT: Introducing Convolutions to Vision Transformers,刚发不久的一篇文章,最近Transformer很多,之所有现在选这一篇是因为方法简洁高效,性能在现在大神云集的Transformer算法里非常有竞争力。另感觉swin-trans源码非常碎,操作繁琐,所以更喜欢这一篇。

Cvt论文原文【链接】
Cvt 解读代码【链接】(论文里的代码链接无效,找了个star很多的)

整体流程图:

在这里插入图片描述
整体改进非常简单,

  • 通过卷积7*7获得conv embedding。
  • 通过深度卷积进行conv proj,即将特征转化成query ,value,key向量。这种转化方式可以见下
  • 在这里插入图片描述

CVT配置

在这里插入图片描述
可以对比途中的CVT13配置信息来看给CVT初始化的各个参数。整体结构应该分为三个阶段。刚看的可以跳过这一些配置。

num_classes,
            s1_emb_dim = 64,
            s1_emb_kernel = 7,
            s1_emb_stride = 4,
            s1_proj_kernel = 3,
            s1_kv_proj_stride = 2,
            s1_heads = 1,
            s1_depth = 1,
            s1_mlp_mult = 4,
            s2_emb_dim = 192,
            s2_emb_kernel = 3,
            s2_emb_stride = 2,
            s2_proj_kernel = 3,
            s2_kv_proj_stride = 2,
            s2_heads = 3,
            s2_depth = 2,
            s2_mlp_mult = 4,
            s3_emb_dim = 384,
            s3_emb_kernel = 3,
            s3_emb_stride = 2,
            s3_proj_kernel = 3,
            s3_kv_proj_stride = 2,
            s3_heads = 6,
            s3_depth = 10,
            s3_mlp_mult = 4,
            dropout = 0.

CVT代码主函数

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值