2025必火赛道:特征融合+目标检测,顶刊在招手!

关注gongzhonghao【学术鲸】,解锁更多SCI相关咨询!

分享一个理论够硬核(跨模态对齐 + 领域鲁棒)、场景够刚需(恶劣天气自动驾驶 / 医疗零样本)、技术够炸裂(动态运动编码 + 扩散蒸馏 + 视觉文本化)的研究方向:特征融合+目标检测

看了最新一波 arXiv 2506 系列,这方向正处在“推理提速 75 % 同时涨点 3 mAP”和“单帧雷达也能让 LiDAR 起飞”的双重风口——灌水容易,但想做出深度得把不确定性、运动先验和 prompt 全打包。新手建议从跨模态鲁棒性切入,给融合层加动态权重或 4D radar 速度门控,冲二区比较稳;若想狙 TPAMI,可以把脉冲 SNN 搬进多模态融合,直接做 neuromorphic 实时检测。

当然,炸山头得先踩地图!小图连夜整理了 3 篇特征融合+目标检测前沿论文,给各位用作参考~

Visual Textualization for Image Prompted Object Detection

方法:

首先对支持图像做背景模糊并提取多尺度视觉特征,接着用共享参数的轻量级卷积-MLP 将每层特征映射到文本维度,再通过最大池化融合多阶段结果得到单个“文本化视觉 token”;在推理时,直接把该 token 与类别文本拼接后送入冻结的 OVLM,从而实现图像与文本双提示的联合检测,全程仅训练 MSTB 模块即可在开放集与小样本场景取得 SOTA。

图片

创新点:

  • 设计无需微调原模型的多尺度文本化模块 MSTB,把视觉样例一次性映射成可插入的文本 token。

  • 引入无参数多阶段融合策略 MSF,在不破坏预训练对齐的前提下整合跨层视觉特征。

  • 构建通用图像提示框架 VisTex-OVLM,使 GLIP/GroundingDINO 等 OVLM 即插即用,兼顾基类与新类性能。

图片

论文链接:

https://arxiv.org/pdf/2506.23785

关注gongzhonghao【学术鲸】,获取特征目标最新选题和idea~

Boosting Domain Generalized and Adaptive Detection with Diffusion Models: Fitness, Generalization, and Transferability

方法:

首先对输入图像执行一次前向扩散获得含噪样本,并从冻结的 Stable Diffusion UNet 中抽取 ResNet 与交叉注意力模块的多尺度特征,经通道拼接、瓶颈投影与跳跃连接后形成检测金字塔;接着在训练阶段并行的主分支处理原图、辅助分支处理框掩图与类别提示,两分支共享扩散骨干但输入不同,以 Faster R-CNN 头输出检测损失;最后通过特征级 MSE 与检测头级 KL/框回归一致性损失将辅助分支的域不变表征蒸馏给主分支,在无需目标数据时实现领域泛化,在有目标无标签数据时利用伪标签完成领域自适应,且所有附加模块仅在训练期生效、推理期保持单分支结构,从而兼顾性能与效率。

图片

创新点:

  • 提出单步扩散特征提取与跨层融合框架,首次将多步去噪压缩为一步并构造兼容 Faster R-CNN 的金字塔特征。

  • 设计面向目标的辅助分支,用框掩图像加类别文本提示激活扩散模型的跨模态注意力,显式提取域不变目标特征。

  • 引入双分支一致性损失,在源域或无标目标域上把主分支与辅助分支的特征及检测头输出对齐,实现知识蒸馏式泛化与自适应迁移。

图片

论文链接:

https://arxiv.org/pdf/2506.21042

关注gongzhonghao【学术鲸】,获取特征目标最新选题和idea~

ELMAR: Enhancing LiDAR Detection with 4D Radar Motion Awareness and Cross-modal Uncertainty

方法:

首先把LiDAR和4D雷达点云分别送入四层DS-SA编码器提取关键点特征;在雷达分支中,用测速向量经注意力加权后通过MLP预测运动状态,并用focal式运动损失约束整体目标动态;随后两套特征经共享投影与选择性匹配,由检测头给出初始框;接着用匈牙利算法对齐两类框,计算七维差异作为不确定性,在LiDAR损失中引入exp(-ΔD)加权与λΔD正则,从而抑制雷达稀疏带来的错位;整个框架只在训练期使用雷达动态监督和跨模态对齐,推理期仅靠增强后的LiDAR分支即可实时输出鲁棒结果。

图片

创新点:

  • 提出Dynamic Motion-Aware Encoding模块,以注意力方式将雷达测速加权到关键点特征,通过运动感知损失隐式学习目标整体运动状态。

  • 设计Cross-Modal Uncertainty Alignment模块,用匈牙利算法配对LiDAR/雷达框,计算差异作为实例级不确定性,自适应抑制跨模态错位。

  • 在VoD上实现首个单帧雷达-激光融合系统,无需多帧累积即可显著提升小目标和动态目标检测,取得74.89% mAP全场景、88.70%驾驶走廊的新纪录。

图片

论文链接:

https://arxiv.org/pdf/2506.17958

► 论文发表难题,一站式解决!

TURING

选题是论文的第一步,非常重要!

但很多学生找到了热门的选题,却卡在代码和写作上!可见论文要录用,选题-idea-代码-写作都缺一不可!

图灵学术论文辅导,汇聚经验丰富的实战派导师团队,针对计算机各类领域提供1v1专业指导,直至论文录用

关注gongzhonghao【学术鲸】,解锁更多SCI相关咨询!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值