自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 arXiv|SARLANG-1M:用于 SAR 图像理解的视觉-语言建模基准

SARLANG-1M:首个大规模SAR图像-文本基准数据集。本研究提出了SARLANG-1M,这是首个专为合成孔径雷达(SAR)图像理解设计的大规模多模态基准数据集。针对现有视觉语言模型(VLMs)在SAR图像上表现欠佳的问题,该数据集包含100多万对高质量SAR图像-文本对,具有层级化分辨率(0.1-25米)、细粒度语义描述(1696种物体类型)和7类应用场景等特点。数据构建采用模态迁移法,通过配对的RGB图像生成文本描述,并创新性地定义了5种问题模板用于视觉问答任务。实验表明,在该数据集上微调的VLMs

2025-11-22 14:04:34 990

原创 论文阅读|ArxiV 2025|大模型微调综述|A Survey on Federated Fine-Tuning of Large Language Models

摘要: 本文系统综述了大型语言模型(LLMs)在联邦学习框架下的微调方法(FedLLM),聚焦其面临的四大挑战:通信开销、数据异质性、内存墙和计算开销。通过分析五类参数高效微调(PEFT)技术(基于LoRA、提示、适配器、选择性及其他方法),重点探讨了低秩适应(LoRA)的联邦优化策略,包括同构、异构和个性化配置方案。研究指出,FedLLM通过分布式隐私保护机制,在降低60%-90%通信负载的同时,保持模型性能(MMLU基准差距<3%),为LLMs在边缘计算场景的落地提供了理论基础与技术路线。

2025-08-24 18:28:29 2696

原创 论文阅读|ICCV 2025|Mamba进一步研究|VSSD

本文针对视觉Transformer的自注意力机制计算复杂度高及状态空间模型(SSMs)在图像处理中的因果性限制问题,提出VSSD模型。通过分析SSD的线性形式,发现双向扫描策略可整合为全局非因果表示,消除传统SSMs的因果约束和空间结构破坏问题。VSSD将隐藏状态计算并行化,提升效率,同时保持图像二维关系。理论推导表明,该方法等效于移除因果掩码,使各Token贡献独立于空间距离,解决了SSMs在视觉任务中的固有缺陷,为高效视觉建模提供了新思路。

2025-07-30 21:44:11 2341

原创 论文阅读|CVPR 2025|Mamba进一步研究|GroupMamba

本文提出GroupMamba,一种高效的分组视觉状态空间模型,旨在解决现有SSM模型(如Mamba)在视觉任务中存在的训练不稳定和计算效率低的问题。通过引入分组Mamba算子将通道分为四组并沿不同方向扫描,结合**通道亲和调制(CAM)**增强跨通道交互,模型在保持参数高效的同时提升了性能。实验表明,GroupMamba在图像分类(ImageNet-1K 84.5% top-1)、目标检测(COCO 54.2% mAP)和分割(ADE20K 51.3% mIoU)任务中均优于主流方法。

2025-07-30 18:07:05 1057

原创 论文阅读|NeurIPS 2024|Mamba进一步研究|MSVMamba

本文提出了一种多尺度2D扫描(MS2D)策略,以解决视觉状态空间模型中存在的长距离遗忘问题和计算冗余问题。传统方法通过多方向扫描策略缓解非因果性问题,但导致计算成本线性增长。研究发现不同扫描路径的衰减率存在差异,部分路径主导信息保留,造成冗余。MS2D创新性地采用多尺度特征提取,通过不同步长的深度卷积生成层级特征图,在保持细粒度特征的同时缩短序列长度,显著降低了计算复杂度。实验证明,该方法在参数受限条件下能有效提升模型性能,为视觉任务中平衡效率与性能提供了新思路。

2025-07-30 15:49:11 1100

原创 论文阅读|Arxiv|MLLMs&多模态融合|NEXT

本文提出了一种多模态行人重识别(ReID)中的结构化字幕生成与优化方法。该方法通过四个核心环节实现:1)构建覆盖20种身份属性的多模态字幕模板,采用条件分支和固定句式确保描述逻辑统一;2)分析现有方法生成字幕的模糊性、不确定性和碎片化问题;3)结合多模态特征感知和模板化属性填充生成高质量字幕,保持跨模态一致性;4)定量验证新方法在词汇量、句子数、错误率和未知率上的优势。关键创新是文本调制语义采样专家(TMSE)模块,通过路由矩阵和动态阈值筛选语义相关图像块,并引入文本调制优化特征采样。实验表明,该方法显著提

2025-06-29 16:37:03 839 1

原创 论文阅读|CVPR 2025|MLLMs|IDEA

本文提出IDEA框架,用于多模态目标重识别任务。核心方法包括:1)逆多模态特征提取器(IMFE),通过模态前缀和逆网络融入文本语义引导,增强特征判别性;2)协作可变形聚合(CDA)模块,自适应融合局部与全局特征。IMFE利用可学习模态前缀区分光谱特性,并通过文本生成伪图像令牌实现跨模态对齐。CDA采用偏移预测机制聚焦关键区域,并通过交叉注意力整合多尺度信息。实验表明,该方法在RGB-NIR-TIR多模态数据上优于现有技术,为复杂场景下的目标识别提供了有效解决方案。

2025-06-22 17:07:57 1000 1

原创 论文阅读|arxiv|综述|Remote Sensing Spatio-Temporal Vision-Language Models: A Comprehensive Survey

本文系统综述了遥感时空视觉语言模型(RS-STVLMs)的研究进展,涵盖模型架构、核心任务、关键技术及未来方向。传统遥感分析局限于单时相图像或二值变化检测,缺乏语义理解与自然语言交互能力。RS-STVLMs通过融合视觉与语言模态,支持变化描述生成、问答、定位等任务,实现了更高层次的动态场景解析。文章梳理了从任务特定模型到通用基础模型的演进路径,分析了视觉编码、时空融合、多模态交互等关键技术,总结了典型数据集与评估指标,并探讨了大规模预训练、时空泛化等未来挑战。本综述为遥感智能解译与多模态交互提供了系统参考。

2025-06-01 18:20:04 827 1

原创 论文阅读|IJCV 2024|视觉语言融合|CLIP-Adapter: Better Vision-Language Models with Feature Adapters

CLIP-Adapter提出了一种基于残差连接和轻量级适配器的少样本学习框架,通过微调视觉/文本适配器(参数仅0.52M)动态融合CLIP预训练特征与新任务特征。实验表明,仅微调视觉适配器在ImageNet 16-shot任务中精度达70.88%,超越传统微调方法(如CoOp的70.16%),且显存消耗降低80%。关键发现包括:1)适配器插入ViT最后一层效果最优;2)残差比例需根据数据集调整(细粒度α=0.6,通用α=0.2);3)硬提示词集成比软提示更可靠。该方法在11个数据集上均优于提示调优,

2025-05-23 19:08:38 1003 1

原创 论文阅读|CVPR 2025|视觉语言模型|MMRL: Multi-Modal Representation Learning for Vision-Language Models

通过线性映射生成图像 / 文本表示标记(Rv/Rt),集成于编码器高层(第 J 层起)。(如 MMA)虽引入多模态交互,但仅优化类别标记特征,缺乏对任务特定表示的显式建模。(如 CoOp)仅优化文本提示或浅层特征,以文本为中心且易干扰预训练的通用知识。过拟合问题:微调 VLMs 大规模参数需大量计算资源,且在少样本下易过拟合,意义:分离 “适配” 与 “泛化” 目标,动态选择特征增强新任务泛化。多模态交互不足:现有方法未充分利用图像与文本的深层协同,冻结并通过余弦正则化对齐预训练特征,保留泛化能力。

2025-05-17 18:17:33 2791 1

原创 论文阅读|ECCV 2024|多模态融合|Grounding DINO

图2展示了封闭集检测器含骨干网络(特征提取)、颈部(特征增强)和头部(区域细化或框预测)三个模块,协同检测预定义类别对象。颈部(phase A)、查询初始化(phase B)、头部(phase C)。更多融合能提升模型性能。不同模型融合方式不同,如GLIP 在颈部(phase A)融合语言与图像特征OV-DETR 在查询初始化阶段(phase B)融入语言信息。

2025-05-13 23:33:08 1254 1

原创 论文阅读|NeurIPS 2024|多模态融合|CogVLM: Visual Expert for Pretrained Language Models

先经过层归一化层$ \text{self.norm1} $进行归一化处理,得到。显著优于无需视觉专家的模型,验证了“视觉专家 + 语言模型”结构的有效性;进行投影,该线性层的权重矩阵为$ \mathbf{W}_1$为。是一个分块对角矩阵,其对角线上的元素就是这些的2阶旋转子矩阵。首先,输入特征向量$ \mathbf{x}$ 通过线性层。设归一化层的参数为$ \gamma$ 和。在注意力机制中,原本的注意力分数计算为。生成门控信号,该线性层的权重矩阵为。进行特征映射,该线性层的权重矩阵为。

2025-05-06 23:32:19 1066 1

原创 论文阅读|J-STARS 2024|多模块协同|一种用于细粒度海洋船舶分类的新型多尺度对比学习网络

在复杂数据集 FGSC-23 和 FGSC-41 上的实验结果表明,MSCL-Net 的总体准确率(OA)、平均准确率(AA)和加权平均精度(MP)均高于其他先进方法,且准确率在各类别上更为平衡,展示了其良好的泛化能力和稳定性。此外,MSCL-Net 的计算复杂度较低,其浮点运算次数(FLOPs)为 13.55G,在对比方法中最低,在保证一定准确率提升的同时,平衡了计算效率和参数数量。,涵盖多种船舶类型,为评估 MSCL-Net 性能提供更全面测试平台,经实验验证了该网络在不同数据集上的有效性。

2025-04-30 18:24:39 1052 1

原创 论文阅读|PMLR 2021|自然语言监督|CLIP—— 从自然语言监督中学习可迁移的视觉模型

(如 ImageNet 的 1000 类),需针对新任务重新标注数据,泛化能力受限。

2025-04-13 18:51:33 1230 1

原创 论文阅读|TGRS 2024|域适应|Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Clas

机制:Visual-Net 和 Remote-Net 分别修正视觉和文本特征的域偏差,减少 CLIP 对自然图像的依赖。1)分层多粒度提示设计:提出三级层次化文本提示(主类型 - 次类型 - 最终类型),增强对船舶细粒度差异的语义表达。机制:层次化提示(如“primary type [GTC]”)帮助模型捕捉船舶大类特征,缓解了细粒度差异的混淆。2)遥感先验集成:通过轻量级网络学习遥感图像与文本的偏差项,缩小自然图像与遥感数据的域差距。,表明更多数据允许模型充分利用分层提示的语义优势和遥感先验的域知识。

2025-03-29 22:34:16 1256 1

原创 论文阅读|Pattern Recognition 2025|GASC-Net:一种用于船舶分类的地理空间信息辅助网络

同时,GASC-Net基于位置信息融合的多模态分类方式能在一定程度上缓解过拟合问题,从不同骨干网络构建的模型性能趋势可看出,基线 ResNet架构模型有过拟合趋势,而 GASC-Net 未出现。GASC-Net 的卓越性能:GASC-Net 在所有指标上表现出色,在 Level 1、Level 2、Level 3 的 Top-1准确率分别达到 99.25%、93.52%、76.69%,相比当前最先进的模型,在三个级别上 Top-1 准确率分别提升了4.28%、3.14%、4.57%。

2025-03-21 21:20:37 917 1

原创 论文阅读|TGRS 2025|基于视图知识增强的多模态语义理解方法在光学遥感图像中的应用

首先要介绍什么是范数:L0范数​定义:向量中非零元素的个数,即∥x∥0i∣xi≠0∥x∥0​i∣xi​0​特点:衡量向量稀疏性,但不满足三角不等式,​严格来说不是范数​L1范数(曼哈顿范数)​​定义:向量各分量绝对值之和,即∥x∥1∑i1n∣xi∣∥x∥1​i1∑n​∣xi​∣​特点:几何上对应“菱形”单位球,常用于稀疏解生成​L2范数(欧几里得范数)​。

2025-03-20 23:19:21 1387 1

原创 基于视觉语言模型与双交叉注意力网络的多模态遥感场景分类

在五个数据集上进行了广泛的实验,并与七个基线模型进行了比较,以证明我们提出的框架在不同场景和数据条件下的有效性和鲁棒性。,用于捕捉视觉和文本数据之间的复杂依赖关系,从而实现更有效的模态融合和鲁棒的表示学习,并且在 VLM 和模态特定编码器的选择上具有灵活性。进一步探索了多模态表示在零样本分类任务中的潜力,展示了其更好地弥合已见和未见类别之间差距的能力。作用:允许一种模态的表示融入另一种模态的相关信息,从而用来自其他模态的上下文相关特征增强嵌入。这是ViT的整体架构,之前学过,就不多说了。

2025-03-14 19:54:54 801 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除