Multiple-environment Self-adaptive Network for Aerial-View Geo-localization

提出MuSe-Net解决空中视角地理定位中环境变化问题,通过two-branch网络实现不同环境下的自适应特征提取,有效提升定位精度。

Multiple-environment Self-adaptive Network for Aerial-View Geo-localization


  • 作者

    • 王廷宇 杭州电子科技大学,就是之前的 Each Part Matters的作者
  • 时间

    • 2022年四月
  • 问题

    • 现在的这一领域的方法无法处理下雨、大雾等恶劣天气,因为并没有考虑在不同的环境下的domain transfer 域转移
  • 提出了一种 MuSe - Net来动态判断域的转换

    • 是一个 two-branch的神经网络,包含了一个 multiple-environment style extraction network 以及一个self-adaptive feature extraction network
  • 在University 1652以及CVUSA上跑的数据库,达到了有竞争力的水准

  • 提出了未来的研究方向:混合大雾、大雪以及大雨

  • 无人机具有更良好的可视性,不会被遮挡

  • 恶劣天气导致的严重飞行事故,所以这个很有用

  • 人类记住不同环境下的同一个建筑是靠去除环境因素的影响,而不是靠记住不同环境下的这个东西的样子

  • 两个难点

    • reproduction of the environmental style information

      • 假设一个已经见过的场景会重出现在一个新的场景里
    • 使用了 一个off-the-shelf image image transformation library

  • 搭建了一个MuSe Net

    • 基于IBN-Net

      • Xingang Pan, Ping Luo, Jianping Shi, and Xiaoou Tang. 2018. Two at once: Enhancing learning and generalization capacities via ibn-net. In European Confer-ence on Computer Vision.

      • 由于IBN NET里面集成的IN 对于内容的不同的风格,采取的形同的处理手段,作者又继承了一个 Residual Spatially adaptive denormalization,这是第一条分支

    • 第二条分支就是一个多层的环境特征提取网络,将环境的信息提取出来作为参数投入到Residual Spade里

    • 两条分支的输入相同,确保自适应特征提取网络可以利用对应的环境信息

  • Related works

    • Domain Generalization 域泛化

    • IBN-NET

      • BN是一个CNN 中常用的技巧,但是,里面的全局静态变量保留了style information,也就是说,对于不同的环境,这个训练好的模型是不能用的

      • IN 与 BN不同,IN 摒弃了全局参数,试图去缩小每个测试样本与训练样本之间的差距,在抵御了风格差异影响的情况下,也破坏了区分度

      • IBN NET把两个放在一块了

      • affine parameters

        • 仿射参数;仿射就是正向传播的矩阵乘积运算,也就是权重和输入特征的成绩,仿射参数就是权重和偏差
    • Spatially adaptive denormalization (SPADE)

      • 是一个conditional normalization module 首先要求额外的数据来生成学习到的放射参数,然后用这个参数来调节归一化

      • 作者加入IN后的改编

  • 整个系统的框架图

    • 如图所示

### Global-Local Self-Adaptive Network for Drone-View Object Detection 在计算机视觉领域,无人机视角的目标检测面临着诸多挑战,例如复杂的背景干扰、多尺度目标以及光照变化等问题。为了应对这些挑战,研究人员提出了多种创新性的方法,其中全局-局部自适应网络(Global-Local Self-Adaptive Network, GLSAN)是一种专门针对无人机视角设计的有效解决方案。 GLSAN的核心思想在于通过融合全局上下文信息和局部特征细节来提升模型的鲁棒性和准确性。具体而言,该网络架构通常由以下几个关键模块组成: #### 1. **全局上下文提取** 全局上下文模块旨在捕获图像中的高层次语义信息,这对于理解场景的整体结构至关重要。这一部分可以通过引入注意力机制或空间金字塔池化层实现[^1]。例如,在某些轻量级卷积神经网络的设计中,采用SENet(Squeeze-and-Excitation Networks)作为全局上下文增强单元,能够显著提高对复杂环境的理解能力。 #### 2. **局部特征细化** 局部特征细化模块专注于捕捉目标对象的具体形状和纹理特性。这一步骤对于区分相似类别尤其重要。常见的做法是在骨干网络的不同阶段应用不同大小的感受野,从而获取多层次的局部特征表示[^2]。此外,还可以利用FPN(Feature Pyramid Network)进一步加强跨尺度特征交互。 #### 3. **自适应融合策略** 为了更好地平衡全局与局部信息之间的贡献比例,GLSAN采用了动态权重调整的方法来进行特征融合。这种方法允许网络根据输入数据的特点自动学习最优组合方式,而不是固定地分配权值[^3]。这种灵活性使得GLSAN能够在多样化的应用场景下保持较高的性能表现。 以下是基于PyTorch框架的一个简化版GLSAN实现示例: ```python import torch.nn as nn class GLSAN(nn.Module): def __init__(self): super(GLSAN, self).__init__() # Backbone network (e.g., ResNet or MobileNet) self.backbone = ... # Global context extraction module self.global_context = SEBlock() # Squeeze-and-Excitation Block # Local feature refinement module self.local_refinement = FPN() # Feature Pyramid Network # Adaptive fusion layer self.fusion_layer = AdaptiveFusion() def forward(self, x): features = self.backbone(x) global_features = self.global_context(features) local_features = self.local_refinement(features) fused_output = self.fusion_layer(global_features, local_features) return fused_output ``` 上述代码片段展示了如何构建一个基本的GLSAN模型。需要注意的是,实际部署时可能还需要考虑更多工程优化措施,比如量化感知训练或者剪枝技术,以便满足实时性要求的同时降低计算成本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

枫楠Kuiy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值