
在resnet101和swin作为backbone上做了实验,改进的是decoder的结构。Decoder会接受四个stage输出的feature作为输入,最后融合的feature接MLP(两层全连接,有激活,先扩张为原来通道数的4倍,再卷回原来的通道数)卷成语义数量最后用逐像素的交叉熵损失,并且使用了第三阶段的feature用FCN网络接了auxilary loss。激活在backbone和decoder中用的都是GELU,归一化用的是layer Norm。
backbone四个阶段输出的feature为:
![]()
那decoder的结构可以表示为:

最低0.47元/天 解锁文章
1523

被折叠的 条评论
为什么被折叠?



