- 博客(45)
- 收藏
- 关注
原创 近期需要做的
3.CSFAFormer 实验结果整理回顾,做PPT。直播回放+CSFAFormer 实验结果整理回顾。写一下最近的 To list。1.雅思两次直播回放。2.雅思两次课程作业。4.鸡主任的课堂实验。5.刘鹏老师课堂实验。
2025-12-09 14:47:47
79
原创 CGGLNet:一种基于类别引导的全局-局部特征交互的遥感图像语义分割网络
在两个公开的遥感数据集(ISPRS Vaihingen 数据集和 ISPRS Potsdam 数据集)上进行的大量消融实验和对比实验表明,与最先进的(SOTA)方法相比,我们提出的CGGLNet取得了更优越的性能。主流方法通常使用隐式注意力机制或Transformer模块来获取全局上下文,以取得良好效果。随着空间分辨率的提高,遥感图像所传达的信息变得越来越复杂。:缩小深层浅层特征之间的语义差距,实现不同层次信息的融合。,极大地增加了遥感图像语义分割任务的挑战。:获取全局信息,估计像素潜在类别。
2025-11-18 08:37:20
145
原创 GeoSeg 框架解析
这个例子没有encoder 模块是因为,他的encoder 模块就只是backbone 特征提取,如果特征提取后加入混合注意力之类的东西,就应该写一个encoder类此外,models 一般都是把组件,基础架构模块定义好,核心模块定义好,在encoder 和 decoder 内部,按照论文结构排列组合encoder 和 decoder 会在最后的模型封装中,在forward 中应用基础架构模块核心注意力模块Transformer 模块解码辅助模块解码器最终模型构造函数和前向传播。
2025-11-15 21:49:16
436
原创 CSFAFormer:用于多模态遥感图像语义分割的类别选择性特征聚合 Transformer
随着成像分辨率的提升,高分辨率光学图像(OI)的细节变得更加复杂。**光照变化和遮挡等因素导致类内特征差异增大,而局部纹理的高度相似又加剧了类间混淆,从而影响分割精度。**来自不同传感器的辅助数据(AD)能够从多个角度捕获目标特征,克服单模态数据的局限性。**然而,多模态数据融合面临挑战,主要由于不同数据源之间存在特征表达差异。**因此,设计针对多模态数据特性的高效融合策略,以充分发挥其互补优势,显得尤为重要 [20,21]。
2025-11-14 20:11:26
936
原创 MMFW-UaV 数据集:用于空对空视觉任务的多传感器、多视角固定翼无人机数据集
我们在本文中提出了一个。MMFW-UAV 共包含,这些图像由多种类型的传感器获取,包括和。数据集中展示了来自、以及的固定翼无人机在多种(包括)下的飞行状态,旨在以覆盖。在每一张图像上,作者都进行了的质量控制流程。据我们所知,。我们在该数据集上评估了多种主流的,实验结果表明,MMFW-UAV 可用于。我们相信,MMFW-UAV 将为提供有力支持。数据集的组织结构。
2025-11-12 01:23:02
273
原创 基于边缘信息提取的遥感图像开放集飞机检测方法
本文针对遥感图像中的展开研究,该任务要求模型能够在动态环境下,同时识别已知(经过训练)和未知(未经过训练)的目标类别。由于,难以在对应位置生成高质量的伪标签。为此,我们提出了一种基于,通过在检测过程中引入边缘特征来增强对未知类别的检测能力。EI-OSTD 框架包含两个关键组件:(1):利用编码器的输出特征优化已知类别的候选框生成,从而提升检测精度;(2):利用边缘信息为未知类别生成高质量的伪标签,从而提升未见目标(unseen targets)的召回率。
2025-11-01 21:01:49
870
原创 弱监督高分辨率土地覆盖制图研究
为什么要进行土地覆盖遥感制图? 人工耗时耗力高分辨率很重要现有问题:高分辨率覆盖范围小需求:高分辨率数据,高分辨率标签(难以获得)解决:高分辨率数据,低分辨率标签
2025-10-15 17:59:58
120
原创 REST:用于端到端场景级遥感影像语义分割的整体学习方法
语义分割通常需要对(WRI,Whole-Scene Remote Sensing Imagery)进行整体分割,而这类影像通常具有的特点。然而,传统的深度学习方法在处理整幅 WRI 的整体分割时受到** GPU 显存限制** 的制约,不得不采用诸如裁剪(cropping)或融合(fusion)等次优策略,从而导致性能下降。为此,提出了一种,是,能够以模块化(plug-and-play)的方式支持多种编码器(encoder)和解码器(decoder)。具体而言,我们在 REST 中提出了一种新颖的。
2025-10-15 01:30:36
554
原创 宽幅XLRS-Bench
本文提出XLRS-Bench,一个面向超高分辨率遥感场景的多模态大模型评估基准。针对现有基准在图像分辨率(10,000×10,000像素)、标注质量(人工验证流程)和评估维度(16个子任务)的不足,该基准包含45,942条中英文标注,涵盖感知与推理能力。实验显示:Qwen2-VL综合表现最佳,GPT-4o擅长长文本生成但时空推理弱,所有模型在超高分辨率目标定位任务上准确率不足5%。研究揭示了当前模型在遥感场景的局限性,为未来面向超高分辨率的多模态模型优化提供了方向。
2025-10-12 19:35:37
935
原创 CFFormer:一种用于多源遥感影像语义分割的交叉融合 Transformer 框架
最终校正的光学特征 = 空间校正后的光学特征 + (1-α) * (空间校正后的SAR特征 * 通道权重)校正后的光学特征 = 原始光学特征 + α * (SAR特征 * 空间权重)
2025-10-12 12:11:58
147
原创 MCAM:因果
1.现有方法倾向于挖掘浅层因果关系,无法解决模态间的虚假关联,忽略自我车辆层次因果关系建模。为了解决这个问题,设计了MCAM ,在视觉和语言之间,构建潜在的因果关系。首先,设计一个来捕捉长距离依赖关系其次,设计一个,使用驾驶状态的DAG动态的对驾驶场景进行建模第三,设计了一个,该模型可以在视觉模态和语言模态之间构建潜在的因果结构。
2025-10-10 14:28:42
192
原创 爬虫学习笔记
bs用来解析网页,支持CSS 选择器,Python 标准库中的HTML 解析器两个参数:第一个是文本,第二个是解释器soup.prettify() 格式化输出。
2025-10-08 18:24:51
1273
原创 MRFS 复现换WHU数据集
的,一般来说再编码器里面第一个编码环节的channels 参数,要换成和自己数据集一样的,后续的不用换因为后续的下采样过程回映射好;然后论文中还有可能有一些其他模块的通道数需要修改,本文中有Fusion _head 我们不需要直接舍掉。查看数据的维度,在应用mask 时,如果是三通道的mask 那要了解颜色映射关系。这个__getitem__ 是最重要的,定义了数据的加载方式,按照索引返回。这些修改包括路径修改,通道修改,损失函数修改,预训练权重修改。色彩编码,做好映射,叫encode_segmap。
2025-10-04 16:30:55
373
原创 如何实现换数据集
的,一般来说再编码器里面第一个编码环节的channels 参数,要换成和自己数据集一样的,后续的不用换因为后续的下采样过程回映射好;然后论文中还有可能有一些其他模块的通道数需要修改,本文中有Fusion _head 我们不需要直接舍掉。查看数据的维度,在应用mask 时,如果是三通道的mask 那要了解颜色映射关系。这个__getitem__ 是最重要的,定义了数据的加载方式,按照索引返回。这些修改包括路径修改,通道修改,损失函数修改,预训练权重修改。色彩编码,做好映射,叫encode_segmap。
2025-10-04 16:18:13
493
原创 9.26邹老师汇报
大多解决的问题都是:统一框架,如何充分融合解决:通道注意力,空间注意力增强图像。融合方法(CA,距离融合),增强融合(卷积块,SA CA堆叠)
2025-09-26 20:04:15
390
原创 GNN/GCN学习笔记
图神经网络的计算:由上一层的自己和边连出去的点的值计算得来。在图上定义问题:图层面,顶点层面,边层面。2.图跟别的数据有啥不一样,为啥用图。3. 构建一个GNN 看看啥样。1.什么数据可以表示成一张图。学习顶点之间边的属性是什么。
2025-09-26 09:55:19
134
原创 MRFS论文
融合操作,就是SA 和CA 交叉,级联。然后引入残差,和FFN 增强表达。前期操作,图像增强方面, 空间注意力加上通道注意力,,标配。
2025-09-18 12:47:51
123
原创 多模态汇报
解决方案在于FDConv , 将图像转换到频域,不同频率作为卷积核,利用类似SE 等手段关注通道注意力,再在图片上进行自适应调整(先把卷积核转到频域,得到不同贫卷积核,再把特征图转到频域,进行独特的匹配)如果这么作,就有点类似于动态卷积的思路,生成动态卷积核进行卷积,问题就是动态卷积核会学到一样的看似比较好的特征导致训练无法继续。:设计双分支多分枝结构,对每个模态设计编码器提取特征,利用交叉注意力机制等融合,解码。人为设计,存储高阶特征,迭代时可获得1阶与1阶融合,22,33,44融合。
2025-08-04 14:11:41
234
原创 多模态自监督学习中的共性与独特表征解耦
尽管两个模态在一个语义空间下对齐取得了胜利,但是有可能又其他模态不能对齐融合的信息,这样的话会迫使模型将独立的特征放入语义空间,削弱模型识别能力。归一化之后的点积(时间复杂度是n*n) 其实也没啥必要像自注意力机制只是这里少了可学习参数而已,像动态卷积一样引入可学习参数会不会效果变好?用可变自注意力,前面写错了不是动态卷积,是可变自注意力提升视野,有侧重关注,可以给他再加一阶扩散。之后作切分,一部分作为共同特征一部分作为独特特征,由损失函数强迫学习。对两个模态单独进行自监督学习,学习到有用的特征,
2025-08-04 02:06:47
530
原创 如何理解卷积,和自注意力机制的局限与优势(个人理解)
卷积,特征提取器,每个通道对应机器认为的一个特征,每次卷积需要考虑所有特征的线性组合,也就是整合特征。
2025-08-01 18:11:56
238
原创 基于扩散机制与知识蒸馏的多模态遥感目标检测研究
为了解决多模态目标检测中的问题,我们提出了一种简单而有效的多源图像目标检测方法(DKDNet)。
2025-07-29 11:30:10
1023
原创 面向多模态自监督学习的共享表示与独有表示解耦
传统方法通常假设在训练和推理阶段都可以访问所有模态信息,这在实际应用中面对模态不完整输入时会导致性能显著下降。解决方法:提出了一种面向遥感数据融合和多模态Transformer的全新不完整多模态学习方法,有监督自监督训练都适用方法简述: 利用多模态Transformer ,结合模态注意力,掩码自注意力机制,整合额外学习得到的token方法结合重构损失与对比损失。
2025-07-28 11:36:19
669
原创 Probing Synergistic High-Order Interaction in Infrared and Visible Image(探究红外与可见光图像融合中的协同高阶交互作用)
尽管具有全局空间交互的交叉注意力机制前景广阔,但它仅能捕获,而忽略了空间和通道维度中的。这一局限性阻碍了对多模态之间协同作用的有效利用。:CA 研究不同patch 两两之间的联系,那多个,组合呢?:SE 这种方法,全剧平均池化,1*1Conv 建俩MLP 学习得是特征之间平均相似度,平均来看,特征A 和特征B 有多少相似度,作者引入方差,偏度,学习非线性组合作者的解决方案------提出从空间维度和通道维度研究红外与可见光图像之间的空间细粒度协作(像素之间影响)与全局统计协作(通道之间影响)。
2025-07-25 21:10:30
944
原创 6.26林大实验室训练补题(27/400)
来的十分之晚,可能是重复做一件事情太过疲惫,效率下降很多,心理上的驱动力也下降许多,希望尽快调整过来分析题目,写代码很快,五分之四的时间都用来debug之中,效率好低,思考一下,如何解决。
2024-06-30 12:33:55
1014
1
原创 数独位运算优化,以及对于搜索中剪枝的一点理解(启动夏日400计划 25/400)
那对于这个数独而言,每个格子若没有限制,都可以选9个数组,当限制多时,可选的数就少,就可以让可选数最少的点作为下一个搜索的对象,因此:我们在初始化时,要让所有的数字都可以填写,然后根据maze一对一的把标记打好,统计操作后续给出。对于每一个(x , y),col 中的1,与row中的1,与Martix中的1取交集都存在,便得到i这个数字可选,也就是用的&操作,得到的数字为solution。笼统的讲:就是每次选决策最少的点,因为决策少,意味着可以成为搜索树的根少,用更少的搜索树等价地做出答案,还是挺好的。
2024-06-26 13:41:09
560
1
原创 昨日刷题三道(启动夏日400计划 24/400)
虽然挂的是搜索题目,但感觉这个题目的搜索占比很小,更多是在与数学处理,如果数学处理不会,那这题没得做,记录一下,积累一下经验吧。
2024-06-26 08:53:29
1459
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅