2024年第六届中青杯全国大学生数学建模竞赛 - 一等奖、创新奖

        本人亲自与队友完成的论文,最后获一等奖 + 创新奖;

        

        文中依旧还有许多不足之处分享给大家,有什么好的建议意见也可以留言提出哦;

        如果需要代码或PDF本体可以关注私信

        比赛不是很难,新手可以参加,我们当时考虑到没有什么事情,随便报名的也没有想太多,新手极力推荐很好拿奖,我们的论文也不是很好,居然也能评创新奖!!!


         考虑到文章篇幅,后续代码就不在这里展示了,文章仅供参考!

 

 

 

 

### SAM 大模型编码器架构与实现细节 SAM (Segment Anything Model) 的编码器部分专注于处理输入图像并提取特征表示,这些表示随后用于指导实例分割任务。ViT Huge作为骨干网络被采用,在实验中除非特别说明均使用此配置[^1]。 #### 编码器结构概述 SAM 使用基于 Vision Transformer (ViT) 的架构来构建其编码器。具体来说: - **多层感知机(MLP)** 和自注意力机制共同作用于每个多头自注意模块内; - 输入图片经过分片(patchify),转换成一系列扁平化的向量序列; - 这些向量通过位置嵌入(position embedding)增强空间信息; - 整体流程遵循标准Transformer模式——交替堆叠多个包含自注意力和前馈神经网络的子层; ```python class Encoder(nn.Module): def __init__(self, depth=24, num_heads=16, embed_dim=1280): super().__init__() self.patch_embed = PatchEmbedding() self.pos_embed = nn.Parameter(torch.zeros(1, 197, embed_dim)) self.blocks = nn.Sequential(*[ Block(dim=embed_dim, heads=num_heads) for _ in range(depth)]) def forward(self, x): B = x.shape[0] x = self.patch_embed(x) + self.pos_embed[:, :x.size(1)] x = self.blocks(x) return x ``` 上述代码展示了简化版的 ViT-Huge 骨干网路中的编码器组件定义方式。实际应用时会更加复杂,并且参数设置也会有所不同以适应特定需求。 对于 SAM 而言,选择如此庞大的预训练模型是因为它能够提供强大的泛化能力以及丰富的语义理解力,这对于高质量完成遥感影像实例分割至关重要。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值