- 博客(150)
- 资源 (11)
- 收藏
- 关注
原创 arXiv 2025:A Survey on Remote Sensing Foundation Models: From Vision to Multimodality
由于自然图像与遥感图像之间存在模态差异,在自然图像上训练的模型难以在遥感任务上取得满意的结果。此外,由于遥感任务的专业性,获取标注的遥感图像较为困难。除了使用标注数据进行训练外,受MOCO [204] 等自监督对比学习方法的影响,一些方法开始探索通过对比学习在遥感图像上进行预训练的潜力。对比学习的关键在于构建正样本和负样本对的方法。对于遥感图像而言,时空对比至关重要。许多研究基于位置、季节等因素构建正负样本对,
2025-08-22 07:47:02
1404
原创 arXiv 2024:Towards Vision-Language Geo-Foundation Model: A Survey
*基础模型是一类通过大规模数据训练后具有广泛适用性和通用能力的模型。这类模型通常参数量巨大、学习能力强,能够在多种任务中表现出色。**尽管基础模型目前尚未无处不在,但它们似乎正成为广泛技术创新的基础,并展现出通用技术的关键特征[35]。本文综述的领域可同时处理多任务,仅支持单一任务的视觉-语言模型不在研究范围内,有关注任务特定视觉-语言模型的读者请参阅[14]。地理基础模型是一类专为通过视觉信息处理地理空间数据而设计的模型。
2025-08-22 06:34:01
881
原创 IEEE GRSM 2024:When Geoscience Meets Foundation Models:Toward a general geoscience artificial intell
地学基础模型(GFMs)代表了地球系统建模的范式转变,其通过以数据为中心的人工智能(DCAI)整合海量跨学科数据集,并应对传统模型难以捕捉的复杂性。本综述重点探讨了GFMs在灵活任务指定、多样化输入-输出能力及多模态知识表征方面的独特优势,同时介绍了以Transformer架构、预训练和自适应方法为核心的关键构建技术。通过对大语言模型、视觉模型及视觉-语言模型最新进展(尤其是在遥感应用方面)的梳理,展现了GFMs在地球科学中的广泛潜力。
2025-08-22 05:44:10
1081
原创 IEEE GRSM 2024:Vision-Language Models in Remote Sensing Current progress and future trends
ChatGPT和生成式预训练变换模型4(GPT-4)取得的显著成就,引发了人们对面向通用人工智能(AGI)的大语言模型(LLMs)的研究热潮。这些模型提供了更接近人类思维的智能解决方案,使我们能够运用通用人工智能(AI)解决各类应用场景中的问题。然而在遥感(RS)领域,关于通用人工智能实现的学术文献仍相对匮乏。现有遥感领域与AI相关的研究主要集中于视觉理解任务,却忽视了对地物目标及其关联关系的语义理解。这正是视觉语言模型(VLMs)的优势所在——。视觉语言模型。这使得它们。
2025-08-22 04:15:40
1094
原创 IEEE GRSM 2025:Foundation Models for Remote Sensing and Earth Observation A Survey
遥感视觉基础模型(VFMs)的研究主要聚焦于预训练策略(包括监督与无监督学习),其中自监督学习(SSL)备受重视。**对比学习和生成式掩码图像建模(MIM)等SSL方法有效降低了对昂贵耗时标注的依赖。**然而,当前遥感SSL数据集(无论是单模态还是多模态应用)的规模与多样性有限,制约了被广泛采用的预训练模型发展。此外,SAM的引入催生了大量针对遥感数据的适配研究,将其效用扩展至不同遥感特定场景、语义识别任务、跨模态迁移和多模态处理。
2025-08-20 06:25:38
573
原创 IEEE GRSM 2025:Vision-Language Modeling Meets Remote Sensing Models, datasets, and perspectives
—图像主要源自开源遥感图像数据集(见。
2025-08-20 04:16:00
1390
原创 IEEE GRSM 2025:Vision Foundation Models in Remote Sensing
人工智能(AI)技术深刻改变了遥感(RS)领域的发展格局,在数据采集、处理与分析层面实现了革命性突破。传统遥感研究长期依赖人工解译和专用模型,而基础模型(FMs)——这种能够以极高精度和效率执行多任务的大规模预训练AI模型的出现,显著推动了该领域的发展。本文系统综述了遥感领域的基础模型研究:首先依据模型架构、预训练数据集和方法论对现有模型进行分类;通过详尽的性能对比,揭示了当前技术趋势与重大进展;进而探讨了高质量数据需求、计算资源约束、模型泛化能力提升等关键技术挑战与应用瓶颈。
2025-08-19 22:06:19
855
原创 Cross-Resolution知识蒸馏论文学习
图中DSB是特征下采样模块野外环境下的人脸识别正朝着轻量化模型、快速推理速度以及分辨率自适应能力的方向发展。在本文中,我们提出了一种桥梁蒸馏方法,将在私有高分辨率人脸数据集上预训练的复杂人脸识别模型,转化为适用于低分辨率人脸识别的轻量化模型。在我们的方法中,这种跨数据集且分辨率自适应的知识迁移问题,通过两步蒸馏法得以解决。第一步,我们进行跨数据集蒸馏,将先验知识从私有高分辨率人脸数据集迁移到公开高分辨率人脸数据集,生成紧凑且具有判别性的特征。
2025-01-24 15:33:54
978
原创 光学遥感显著性目标检测2023-2024论文学习
[32] B. D. Brabandere, X. Jia, T. Tuytelaars, and L. Van Gool, “Dynamic filter networks,” in Proc. Adv. Neural Inform. Process. Syst., 2016, pp. 1–14.[33] J. He, Z. Deng, and Y. Qiao, “Dynamic multi-scale filters for semantic segmentation,” in Proc. IEEE/
2025-01-22 16:45:13
1261
原创 基于知识蒸馏的跨模态目标检测方法总结
由于类别的概率预测所蕴含的知识量比较少,所以作者使用对比知识蒸馏,对分类logits之前的特征Hs,Ht进行对比蒸馏,回归蒸馏Lbox还是采取L1损失事件相机因其独特的性能,如低延迟和高动态范围,正日益受到欢迎。在实时物体检测这一任务中,这些优势可能至关重要。然而,由于事件数据的稀疏性以及视觉细节的缺失,RGB 探测器的性能仍然优于基于事件的探测器。在本文中,我们提出了一种跨模态特征蒸馏方法,该方法能够聚焦于知识蒸馏效果最佳的区域,以缩小这两种模态之间在检测性能上的差距。我们通过使用一种。
2025-01-08 04:18:08
2530
1
原创 典型常见的基于知识蒸馏的目标检测方法总结三
开放词汇目标检测旨在使在固定对象类别集上训练的目标检测器具备检测由任意文本查询描述的对象的泛化能力。先前的方法采用知识蒸馏从预训练的视觉语言模型(PVLM)中提取知识并将其转移到检测器中。然而,由于非自适应的提议裁剪和单层级特征模仿过程,它们在知识提取过程中存在信息破坏问题,并且知识转移效率低下。为了弥补这些局限性,我们提出了一个对象感知蒸馏金字塔(Object-Aware Distillation Pyramid,OADP)框架,包括一个。
2024-12-29 09:30:19
2222
原创 典型常见的基于知识蒸馏的目标检测方法总结二
pc是每个像素点的预测分类概率值最大的概率pr是每个像素点预测的bounding box与GT bounding box的最大IoU得分。然后作者定义了HS得分,用于平衡两个子任务的预测得分:并在此基础上,定义了基于Harmonious的Distillation loss:此外,作者更进一步引入了一种动态变化因子dynamic modulation factor,用于为每个空间像素点施加不同的损失权重作者发现直接模仿教师模型的预测会面临目标冲突问题,这阻碍了预测模仿取得良好的性能。
2024-12-27 04:18:28
2279
原创 典型常见的基于知识蒸馏的目标检测方法总结一
使用feature propagation layer [29]将voxel特征转换为point feature。
2024-12-26 01:41:12
1822
原创 TPAMI 2023:When Object Detection Meets Knowledge Distillation: A Survey
目标检测(Object Detection,OD)是计算机视觉中的一项关键任务,多年来涌现出了众多算法和模型。尽管当前 OD 模型的性能有所提升,但它们也变得更加复杂,由于参数规模庞大,在工业应用中并不实用。为解决这一问题,2015 年知识蒸馏(Knowledge Distillation,KD)技术被提出用于图像分类,随后因其能够将复杂教师模型所学知识转移到轻量级学生模型中,而被扩展到其他视觉任务。**本文对近年来基于 KD 的 OD 模型进行了全面综述,旨在为研究人员提供该领域近期进展的概述。
2024-12-08 03:59:30
1205
原创 典型常见的知识蒸馏方法总结三
经典的蒸馏方法通过匹配输出激活值,将表征从 “教师” 神经网络转移到 “学生” 网络。近期的方法还会匹配它们的Jacobian矩阵,或者输出激活值相对于输入的梯度。见之前的博文典型常见的知识蒸馏方法总结一。
2024-12-07 23:28:03
1345
原创 典型常见的知识蒸馏方法总结二
第二部分旨在从教师网络中捕捉长距离依赖关系,由于小型模型的感受野有限且抽象能力不足,这种长距离依赖关系对它们来说是很难学习到的。
2024-12-07 01:11:20
1021
原创 典型常见的知识蒸馏方法总结一
知识蒸馏开山之作,从logits中蒸馏知识,KL散度损失A hint is defined as the output of a teacher’s hidden layer responsible for guiding the student’s learning process,we choose a hidden layer of the student, the guided layer, to learn from the teacher’s hint layerSimilarly, we ch
2024-12-06 19:02:25
1222
原创 TPAMI2022 Knowledge Distillation and Student-Teacher Learning for Visual Intelligence: A Review and
在常见的单一教师(S-T)知识蒸馏(KD)范式下,已经取得了令人瞩目的进展,即知识从一个高容量的教师网络转移到一个学生网络。然而在这种设定下,知识容量相当有限 [48],并且在某些特殊情况(如跨模型知识蒸馏 [82])下,知识多样性也很匮乏。为此,一些研究工作探索了从多个教师或教师集合中学习一个可迁移的学生模型。这背后的直觉可以用人的学习认知过程来类比解释。在实际情况中,学生并非仅仅从单个教师那里学习,而是在同一任务上接受多个教师的有益指导,或者在不同任务上接受不同教师的指导时,能更好地学习某个知识概念。
2024-12-06 03:02:32
1322
原创 IJCV2021: Knowledge Distillation: A Survey
知识蒸馏中的知识有多种类别,一种最基本的知识就是使用教师模型的预测logits;此外,教师模型中间层的特征,也可以视为表征知识来引导学生网络学习。教师网络中不同神经元,不同特征层富含的关系信息,以及教师模型的参数也包含的一定的知识。综述将知识分为三种类别:response-based knowledge,feature-based knowledge,relation-based knowledge。
2024-11-26 01:12:02
1066
原创 计算机学报2022:知识蒸馏研究综述
最原始的知识蒸馏 vanilla knowledge distillation 仅仅从教师模型输出的软目标中学习除轻量级的学生模型。然而,当教师模型变得更深时,仅仅学习软目标是不够的. 因此,我们不仅需要获取教师模型输出的知识,还需要学习隐含在教师模型中的其它知识,比如中间特征知识. 本节总结了可以使用的知识形式有输出特征知识、中间特征知识、关系特征知识和结构特征知识.
2024-11-25 22:04:29
2158
原创 如何git上传代码避免出现! [rejected] main -> main (non-fast-forward)
git initgit branch - m master main #将本地分支改名为main,与线上保持一致 git add . git commit - m "first commit" git remote add origin xxx #xxx表示远程服务器地址 git pull - - rebase origin main ##解决!
2023-07-25 01:00:59
1804
原创 Windows 配置github的SSH公钥注意事项
具体参考https://blog.youkuaiyun.com/fzxyxf1314/article/details/101541078?utm_medium=distribute.pc_relevant.none-task-blog-2defaultbaidujs_title~default-0-101541078-blog-79799581.pc_relevant_default&spm=1001.2101.3001.4242.1&utm_relevant_index=3这一步非常重要,需要添加字
2022-05-15 14:20:59
1204
转载 pytorch卷积网络特征图可视化
pytorch特征图 可视化 清测有效,Mark一下。引用自 https://my.oschina.net/u/4300877/blog/4693569# -*- coding: utf-8 -*-"""Created on Tue Oct 27 09:25:51 2020@author: LX"""#%%特征可视化import matplotlib.pyplot as pltimport cv2import numpy as npfrom PIL import Imagefro
2022-01-28 02:25:09
1248
原创 ICCV2017——CoupleNet: Coupling Global Structure with Local Parts for Object Detection
CoupleNet: Coupling Global Structure with Local Parts for Object Detection学习CoupleNet,这个网络结构就是使用全局上下文和局部上下文进行融合,检测。在最近的一些论文中我也看到过这么的操作,但是他们的出发点都应该是来自于这一篇论文。所以学习CoupleNet是如何进行检测,如何进行局部上下文和全局上下文的融合的至关重要。学习CoupleNet主要抓住以下问题:CoupleNet是基于RFCN进行改进的,首先要掌握F
2021-04-17 17:17:34
762
原创 CVPR2021—— Coordinate Attention for Efficient Mobile Network Design
Coordinate Attention for Efficient Mobile Network Design这是一篇基于SE和CBAM的改进注意力机制。性能比SE和CBAM要好一些。SE模块只是在通道上施加了权重,而忽略了位置信息。本文中,提出一种novel的注意力机制,使用两个1D的pooling捕捉水平和垂直方向的注意力特征编码。话不多说了。直接上图。懂的人都懂:(a)是SE模块,(b)是CBAM模块©是本文提出的CA模块。很明显看出,CA模块和前二者的区别在于将一个2D的p.
2021-04-17 11:08:29
5266
18
原创 关于pip install ensemble-boxes报错的处理
ensemble-boxes是CVPR2020年发表的Weight Boxes Fusion论文中提出算法的作者开源的第三方库。里面实现了WBF后处理算法s具体的请见github:https://github.com/ZFTurbo/Weighted-Boxes-Fusionarxiv:https://arxiv.org/abs/1910.13302如果直接pip install ensemble-boxes报错的话,Looking in indexes: https://pypi.tuna.ts
2021-04-06 19:20:17
1367
原创 2021年3月第四周论文学习:Libra R-CNN、Dual Path Networks、ECANet、M2Det、
Libra R-CNN: Towards Balanced Learning for Object Detection2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)这篇文章的点子很好,作者认为设计比较sota的目标检测模型的架构固然重要。但是在目标检测的实践中,发现检测性能通常受到训练过程中的不平衡的限制,这通常包括三个级别——样本级别、特征级别和目标级别。所以作者通过为了减轻这种不平衡所带来的负面
2021-03-27 22:33:17
837
1
原创 《动手学深度学习》(Pytorch版)——预备知识学习
接下来一段时间要好好学习深度学习 和 Pytorch的基础知识。《动手学深度学习》(Pytorch版)今天刚刚了解到这份在线教程,迫不及待的赶紧食用了。地址:https://tangshusen.me/Dive-into-DL-PyTorch/#/环境配置什么的就不说了,对于Anaconda,Pycharm,Pytorch的安装,以前都学习过也写过相关的博客:这里贴上链接:Windows10下Anaconda环境的安装与配置Windows10系统下Anaconda的虚拟环境的创建与pytorc
2021-03-21 00:05:43
949
1
原创 SKnet:Selective Kernel Networks学习笔记+Pytorch代码实现
论文题目:Selective Kernel Networks发表于 CVPR 2019论文地址:https://arxiv.org/pdf/1903.06586.pdf作为一下对比,这里再附上SEnet的结构图:总结:SK注意力机制和SE注意力机制的不同之处:SE注意力只是在通道上施加MLP学习权重,来体现每个权重之间的重要性差异;SE注意力机制只需要用到一个全局池化和两个全连接层;SK注意力机制是SE注意力机制的升级版,特色之处体现在通过网络自己学习来选择融合不同感受野的特征图信息;
2021-03-20 20:02:32
14684
11
原创 目标检测中的NMS,soft NMS,softer NMS,Weighted Boxes Fusion
NMS非最大值抑制算法,诞生至少50年了。在经典的两阶段目标检测算法中,为了提高对于目标的召回率,在anchor阶段会生成密密麻麻的anchor框。所以在后处理的时候,会存在着很多冗余框对应着同一个目标。因此NMS就是后处理中去除冗余框的必不可少的步骤。NMS算法的具体流程:输入 boxes,scores, iou_thresholdstep-1:将所有检出的output_bbox按cls score划分(如pascal voc分20个类,也即将output_bbox按照其对应的cls
2021-03-20 19:07:18
2888
1
原创 基于ACNet构建ResNet50backbone的Pytorch代码实现
ACNet是什么?[1]X. Ding, Y. Guo, G. Ding etal.“ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks” in ICCV 2019推荐博客:https://blog.youkuaiyun.com/practical_sharp/article/details/114671943Overview of ACNet. For example,
2021-03-17 16:53:11
4695
7
原创 original Residual Unit && full pre-activation Residual Unit
在2016年ECCV的一篇论文中,讲述到了full pre-activation ResNet。其改进的ResNet164结构比original结构的error降低0.5%K. He, X. Zhang, S. Ren, and J. Sun, “Identity mapping in deep residual networks,” in ECCV 2016图中的weight层代表的就是卷积层操作,BN和relu分别是批正则化和激活函数original Residual Unit Pytorch
2021-03-16 22:10:50
2592
1
原创 Multi-branch convolutional networks
Multi-branch convolutional networks这是在学习阅读Selective Kernel Networks论文中出现的related work。从来没接触过,没了解过。今天学习记录一下。Highway networksR. K. Srivastava, K. Greff, and J. Schmidhuber. Highway networks. arXiv preprint arXiv:1505.00387, 2015.highway network是主要讲的是什么呢
2021-03-16 15:25:20
1882
原创 如何利用python将NWPU VHR-10目标检测遥感数据集的格式转换成VOC目标检测数据集的格式
VOC目标检测数据集的格式其中图片存放在JPEGImages文件夹中,标注是xml文件,存储在Annotations文件中关于train集和val集的txt划分存放在ImageSets文件夹下面的Main文件夹下如下是VOC2012某张图片的标注信息xml文件<annotation> <folder>VOC2012</folder> <filename>2008_006604.jpg</filename> <source&g
2021-03-14 14:57:13
4464
11
原创 2021-3-13论文学习——SENet,StairNet,Generalized Focal Loss,R3Det,CARAFE
[1]Squeeze-and-Excitation Networks论文地址:https://arxiv.org/abs/1709.01507代码地址:https://github.com/moskomule/senet.pytorch/blob/master/senet论文发表于CVPR 2018,同时提交于IEEE TPAMI 2019结构图一个全局avg pooling得到11C的向量,然后通过一个MLP感知机得到进行线性变换的11C向量。 再通过一个Sigmod函数进行激活。各
2021-03-13 18:04:00
1799
2
数据结构C语言版期末总复习题
2018-10-04
手机电脑投屏软件
2019-01-26
数据结构C语言版教材全部算法代码实现
2019-01-20
《数据结构》第二版教材授课专用ppt全国通用
2019-01-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅