自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 两个面向视觉定位的遥感船舶数据集:RSSVG&SARVG

语言表达呈现多维度特征,高频词汇"货轮"凸显船舶类型标注,同时涵盖尺寸(大/中/小)、颜色(白/蓝)、方位(左/右)及工程属性(甲板/引擎),完整刻画船舶外观与场景语义,适用于复杂光学影像的细粒度视觉定位。语言特征聚焦空间关系与尺寸对比,高频词"大型船舶"“中尺寸"配合方位词"左上”"右下"形成核心描述范式,契合SAR图像低纹理、高几何特性的解析需求,强化了船舶位置感知与相对尺度判读能力。

2025-04-23 15:13:45 430

原创 VGRSS: Datasets and Models for Visual Grounding in Remote Sensing Ship Images

本文提出了一项名为遥感船舶图像视觉定位(VGRSS)的新任务。VGRSS的目标是通过自然语言指导在遥感图像中定位船舶目标。目前已有大量研究致力于遥感图像与文本的多模态处理,试图通过自然语言从遥感图像中获取丰富信息。然而由于遥感船舶图像的特殊性,利用自然语言进行船舶定位仍面临挑战。为此,我们针对VGRSS任务构建了专用数据集并探索深度学习模型。具体而言,本文的贡献可归纳为以下四点:首先,我们构建了两个面向视觉定位的遥感船舶数据集。

2025-04-23 14:14:14 674

原创 论文题目:Global–Local Fusion With Semantic Information Guidance for Accurate Small Object Detection...

近年来,无人机技术的快速发展产生了大量由无人机拍摄的航拍图像,因此,无人机航拍图像中的目标检测成为近期的研究热点。然而,由于无人机飞行高度灵活、拍摄角度多样,航拍图像中面临两个显著挑战:目标尺度的极端变化以及大量小目标的存在。为应对这些挑战,本文引入了一种专门针对小目标的语义信息引导融合模块。该模块利用高级语义信息来引导并对齐底层纹理信息,从而在特征层面增强了小目标的语义表示,进而提升模型对小目标的检测能力。此外,本文还提出了一种新颖的全局-局部融合检测策略,以强化对小目标的检测。

2025-03-29 15:36:39 957

原创 论文题目:Hyperspectral Image Classification via Cascaded Spatial Cross-Attention Network

在高光谱图像(HSI)中,不同的土地覆盖(LC)类别在不同的波长下具有不同的反射特性。因此,仅依靠少数几个波段来区分所有的土地覆盖类别往往会导致信息丢失,从而使平均精度较差。为了解决这一问题,我们提出了一种名为级联空间交叉注意力网络(CSCANet)的高光谱图像分类方法。我们设计了一个级联空间交叉注意力模块,该模块首先在空间上下文下对局部和全局特征执行交叉注意力操作,然后使用分组级联结构在不同通道内依次传播重要的空间区域,最后得到联合注意力特征,以提高网络的鲁棒性。

2025-03-28 20:17:54 857

原创 论文题目:SegVG: Transferring Object Bounding Box to Segmentation for Visual Grounding

视觉定位(Visual Grounding)旨在依据自然语言文本在图像中定位目标对象,以往方法仅将边界框标注用于回归,存在性能提升空间。本文提出 SegVG 方法,创新性地把框级标注转换为分割信号,为视觉定位增添像素级监督。通过多层多任务编解码器在解码层分别学习回归和分割查询以定位目标,并引入三重对齐模块(Triple Alignment)利用注意力机制更新查询、文本和视觉特征,使其处于同一空间,减少域差异。

2025-03-14 18:58:23 709

原创 论文题目:Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications

本文提出可变形卷积 v4(DCNv4),这是一种专为多种视觉应用设计的高效算子,它通过去除空间聚合中的 softmax 归一化增强动态性和表达力,并优化内存访问减少冗余操作,相比 DCNv3 收敛更快且前向速度提高三倍多。在图像分类、分割及生成等任务中表现出色,如在潜扩散模型的 U - Net 中替代卷积可提升性能;在 InternImage 模型中替换 DCNv3 形成 FlashInternImage,速度提升 50% - 80% 且性能增强,有望成为未来视觉模型的基础组件。

2025-03-11 16:09:30 1072

原创 论文题目:Integrating Detailed Features and Global Contexts for Semantic Segmentation

​ 超高分辨率遥感图像的语义分割是众多下游应用的核心任务。实现精确的像素级分类对于获得优质的分割结果至关重要。然而,处理复杂的分割边界并准确识别遥感图像中的小物体,使得这一任务更加具有挑战性。为了有效应对这些需求,集成全局上下文信息与空间细节特征显得尤为重要。为此,多级上下文感知分割网络(MCSNet)作为一种前沿的解决方案应运而生。MCSNet不仅能够有效建模全局上下文信息,还能提取复杂的空间细节特征,从而优化分割结果。

2025-03-09 19:35:39 771

原创 论文题目:DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis

扩散模型在图像生成方面取得了巨大成功,其骨干从 U-Net 发展到视觉变压器。然而,变压器的计算成本与令牌数量成二次方关系,在处理高分辨率图像时带来了显著挑战。在这项工作中,本文提出了 Diffusion Mamba (DiM),它结合了基于状态空间模型 (SSM) 的序列模型 Mamba 的效率和扩散模型的表现力,用于高效的高分辨率图像合成。为了解决 Mamba 无法泛化到二维信号的问题,本实验进行了多项架构设计,包括多方向扫描、在每行和每列末尾的可学习填充令牌以及轻量级局部特征增强。

2025-03-03 18:25:59 596

原创 论文题目:Context-Guided Spatio-Temporal Video Grounding

时空视频定位(Spatio-temporal video grounding,STVG)任务的目标是根据给定的文本查询,在视频中定位出特定实例的空间时间管。尽管已有方法取得了一定进展,但在面对视频中的干扰因素或目标外观的剧烈变化时,由于文本提供的目标信息不足,性能往往会下降。为了解决这一问题,此文章提出了一个新颖的框架——context-guided STVG(CG-STVG),该框架挖掘视频中目标的判别性实例上下文,并将其作为补充指导用于目标定位。

2025-03-02 18:07:12 843

原创 论文题目:Visual Contextual Semantic Reasoning for Cross-Modal Drone Image–Text Retrieval

跨模态无人机图像-文本(DIT)检索任务涉及使用文本或无人机图像作为查询来检索相关的无人机图像或相应的文本。主要的挑战源于无人机图像的多样性和复杂性,这使得图像和文本之间的有效对齐变得困难。为此,本文提出了一种创新的方法,称为视觉上下文语义推理(,VCSR),旨在精确对齐不同模态之间的信息。VCSR利用文本线索来指导视觉上下文中的丰富语义推理,减少视觉信息的冗余。此外,该方法捕捉与文本相关的无人机图像信息,揭示无人机图像区域与文本内容之间的微妙对应关系。为了增强视觉语义学习,引入了上下文区域学习(

2025-03-01 18:35:00 775

原创 论文题目:Multimodal Fusion Transformer for Remote Sensing Image Classification

传统图像分类方法和现有的卷积神经网络(CNN)在充分利用多模态数据进行遥感分类方面存在不足。同时,现有的Transformer在处理外部分类标记(CLS)时,常遇到泛化不佳的问题,且可能涉及高计算开销。本研究旨在引入一种新的多模态融合Transformer(MFT)网络,以增强遥感图像的分类能力。其主要目标是通过引入一种新颖的多头跨patch注意力(mCrossPA)机制,将高光谱图像(HSI)与其他多模态数据(如LiDAR)进行整合,以提高土地覆盖分类的性能。

2025-02-25 00:07:18 897

原创 论文题目:Balanced Density Regression Network for Remote Sensing Object Counting

在遥感图像中计数物体对于分析其在图像中的分布至关重要。与监控视角相比,在遥感图像中计数密集物体更具挑战性,因为这些目标的尺寸较小。最近,许多方法利用高斯卷积回归来估计遥感图像中密集物体的数量。然而,大多数方法忽略了高斯分布中固有的回归不平衡问题,这是由中心区域和边缘区域的数值差异引起的。为了应对这一挑战,我们提出了一种平衡密度回归网络(BDRNet),以减轻由于数值差异导致的高斯分布中的回归不准确性。与其他方法不同,我们将回归问题分为两个步骤:首先关注感兴趣的区域,然后实现精确回归。

2025-02-23 21:59:19 630

原创 论文题目:AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization

得益于精心设计的图像-文本对齐和图像-地理匹配机制,我们的 AddressCLIP 在 Pitts-IAL、SF-IAL-Base 和 SF-IAL-Large 数据集上的 SSA-1 分别比代表性的视觉-语言提示学习方法高出 7.41%、4.86% 和 6.29%。值得注意的是,即使在更具挑战性的 SF-IAL-Large 数据集上,我们的方法也能达到 85.92% 的地址定位准确率,该数据集的面积是 Pitts-IAL 数据集的 8 倍。在推理过程中,与查询图像的嵌入相似度最高的地址表示最可能的地址。

2025-02-22 14:09:36 490

原创 论文:AerialVL: A Dataset, Baseline and Algorithm Framework for Aerial-Based Visual Localization...

此外还提出了一个通用的基于航空的视觉定位框架,它统一了各种方法并将它们集成到模块化架构中,所提出的框架在所有飞行轨迹中相对于现有方法实现了更高的定位精度和鲁棒性。在 VAL 任务中对不同的相对位置估计算法在 AerialVL 数据集上进行评估,使用收敛轨迹内的平均定位误差(MLE)、收敛轨迹长度(CTL)和运算时间指标评估各个方法,得到结果显示通过预训练的 MCL 方法在运算时间上花费最少,而 DLK 方法在收敛轨迹长度上表现较其它方法有明显优势,表 3 为各方法在长序列、短序列与运行时间对比。

2025-02-21 22:22:44 967

原创 论文题目:Inexactly Matched Referring Expression Comprehension With Rationale

引用表达式理解(REC)是一项多模态理解任务,其目的在于依据文本描述在图像中定位对象。传统的 REC 任务存在一个基本假设,即给定的文本表达式与图像通常能完全匹配。然而在实际场景里,图像与文本的精确匹配程度具有不确定性。图像中难以辨认的对象或者文本里模棱两可的短语,可能会极大地降低传统 REC 任务的性能。为突破这些限制,本文考量一个更实用且全面的 REC 任务,在此任务中,给定的图像及其文本表达式不一定完全匹配。

2025-02-14 11:10:42 702

原创 跨模态无人机图像文本检索任务数据集

​跨模态无人机图像文本(DIT)检索任务旨在使用文本或无人机图像作为查询来检索相关的无人机图像或相应的文本。数据集以及互联网收集的10693个样本。这些样本涵盖了各种城市环境,图像大小各异。的2864个样本,每个图像大小为640×640像素。ERA-DIT数据集包含来自。UDV-DIT数据集包含从。(提取码:6868)。

2025-01-19 12:59:50 413

原创 论文题目:RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data

​ 本文介绍了遥感数据(RSVG)的Visual Grounding任务。RSVG的目的是在自然语言的指导下定位遥感(RS)图像中的参考对象。为了利用自然语言从RS图像中获取丰富的信息,人们对RS图像视觉-问题回答、RS图像-字幕、RS图像-文本检索等研究任务进行了大量的研究。然而,在RS图像上的对象级Visual Grounding仍未得到充分的探索。因此,在这项工作中,我们构建了一个RSVG任务的数据集并探索了深度学习模型。具体来说,我们的贡献可以总结如下。

2025-01-08 13:46:53 1024

原创 论文题目:A Multi-Modal Contrastive Diffusion Model for Therapeutic Peptide Generation

治疗性肽是一类独特的药物,对人类疾病的治疗至关重要。近年来,深度生成模型在治疗性肽生成方面展现出显著潜力,但这些模型仅利用序列或结构信息中的一种,限制了生成性能。在本研究中,我们提出了一种多模态对比扩散模型 (MMCD),将序列和结构模态融合在一个扩散框架中,共同生成新的肽序列和结构。具体来说,MMCD 分别构建了序列模态和结构模态的扩散模型,并在每个扩散时间步中设计了一种包含模态间对比和模态内对比的多模态对比学习策略,旨在捕捉两种模态之间的一致性,并提升模型性能。

2025-01-03 15:58:53 1003

转载 当给你一个服务器账号,如何部署你的AI模型

1、查看虚拟环境列表:使用conda info -e或者conda env list,查看已经存在的环境,前方带有*的为正在使用的虚拟环境。6、复制虚拟环境:conda create -n [new环境名称] --clone [old环境名称]2、创建虚拟环境:conda create -n [环境名称] python=[版本号]一般用过的服务器是有该环境的,在命令行输入conda -V 查看conda版本号。5、删除虚拟环境:conda remove -n [环境名称] --all。

2024-11-12 15:56:22 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除