Swin学习笔记

# 从头开始读代码,学习论文中描述的点是如何用代码实现的。

Swin Transformer训练设置:

1. Regular ImageNet-1K training

optimizer: AdamW for 300 epochs

from torch import optim as optim

optimizer = optim.AdamW(parameters, eps=config.TRAIN.OPTIMIZER.EPS, betas=config.TRAIN.OPTIMIZER.BETAS, lr=config.TRAIN.BASE_LR, weight_decay=config.TRAIN.WEIGHT_DECAY)

cosine decay learning rate scheduler and 20 epochs of linear warm-up.

A batch size of 1024, an initial learning rate of 0.001, and a weight decay of 0.05 are used.

2. Pretraining on ImageNet-22K and fine-tuning on ImageNet-1K.

消融实验因素:

1. 相对位置偏差(B)

\[{\rm{Attention}}(Q,K,V) = {\rm{SoftMax}}(\frac{ {Q{K^T}}}{ {\sqrt { {d_k}} }} + B)V\]

2. shifted windows

下采样结构(downsampling在前三个阶段的最后为PatchMerging&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值