
SAM
Annkile
这个作者很懒,什么都没留下…
展开
-
SAM解码器的代码理解(二)
经过两个叠加的双向注意力模块和最后一个token-image交叉注意力后,输出Query和Keys(具体过程可见上一篇文章中TwoWayTransformer代码)。其中,Query中的第一个向量为下图中的iou_out,后面的向量为mask_out。Keys为下图中的src。原创 2024-12-29 12:29:33 · 535 阅读 · 0 评论 -
SAM解码器的代码理解(一)
查询为点嵌入,键为图像嵌入。先通过两个重复的TwoWayAttentionBlock,最后通过一个token-image交叉注意力。SAM解码器中的双向注意力模块由自注意力、交叉注意力、MLP、交叉注意力四个步骤组成。具体过程通过阅读注释可以基本理解。建议先理解TwoWayAttentionBlock类,再理解TwoWayTransformer,并对照流程图看。对SAM解码器其他部分理解见下一篇。原创 2024-12-29 11:24:16 · 452 阅读 · 0 评论