自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Gorgeous_wxd

疏影横斜水清浅,暗香浮动月黄昏。

  • 博客(302)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度学习框架解读

深度学习框架解读知识点汇总

2023-04-21 15:20:22 751 1

原创 【论文汇总】2D目标检测文章汇总,持续更新

记录自己比较感兴趣的2D目标检测文章。

2022-07-21 16:15:12 2229

原创 【汇总】百宝囊

记录一下看过的一些讲解比较清楚的知识点

2022-07-18 18:57:44 308

原创 【汇总】看过的一些Panel与视频

学术talk

2022-07-04 09:54:50 701

原创 【目标检测】小目标检测相关

小目标检测相关文章和竞赛汇总

2021-07-05 22:36:27 1942 7

原创 【厦门大学-纪荣嵘组-arXiv25】全参考图像分割

数据集经过严格的四步构建流程(图像筛选、视觉标注、文本标注、全模态标注融合),划分了文本仅、视觉仅、全模态三种测试集,覆盖单目标、多目标、无目标等多种场景,规模远超现有RIS基准数据集。OmniRIS通过融合文本与视觉多模态提示,结合大规模数据集OmniRef和强基线模型OmniSegNet,突破了单模态分割任务的局限,实现了多场景、高通用的图像分割,为复杂场景下的交互式分割应用提供了新范式。三步训练机制:先通过视觉-语言对齐预训练,再进行视觉指令微调,最后开展全模态联合训练,兼顾单模态与多模态处理能力;

2025-12-26 00:34:07 417

原创 【西安交通大学-曹相湧组-arXiv25】SegEarth-R2:迈向遥感图像的全面语言引导分割

LaSeRS数据集填补了遥感复杂语言引导分割的训练资源空白,SegEarth-R2模型以两大创新机制实现“精准+高效”的双重突破,共同推动遥感AI从“听懂简单指令”迈向“应对复杂真实场景”,为灾害救援、城市规划等领域提供更实用的技术支撑。更关键的是,现有数据集多聚焦简单单目标场景,缺乏覆盖上述复杂维度的训练资源,导致AI在真实场景中“水土不服”,难以落地实用。:解决小目标/部件级分割不准的痛点,通过直接监督模型内部的视觉-语言注意力映射,强制模型聚焦目标区域,避免细节丢失;

2025-12-25 00:28:42 183

原创 【中科院-AAAI26】用于主动脉血管分割的自适应形态补丁 Transformer

模型先学习血管的走向和形态,生成一个“速度场”,再通过数学方法将其转化为平滑的变形场,让补丁能够跟着血管的弯曲、粗细变化自适应调整——血管弯,补丁就弯;不管是粗壮的主动脉主干,还是纤细的分支血管,只要具备血管的核心语义特征,都会被模型精准识别并聚合特征,大幅提升了不同尺度血管的分割一致性,减少误判和漏判。MPT通过形态自适应补丁和语义聚类注意力两大创新,解决了传统模型分割复杂主动脉血管的核心痛点,在精度、效率和泛化性上实现全面突破,为心血管疾病的精准诊断提供了强有力的AI工具。

2025-12-24 00:44:50 354

原创 【哈工大-AAAI26】面向模糊医学图像分割的模糊感知截断流匹配

GTR直接将关键节点的分布建模为高斯分布,通过明确的均值和方差参数化,既能保留少见但合理的病变模式,又能保证分割结果的一致性,大幅提升了预测保真度。ATFM通过“分层推理+高斯建模+语义流匹配”的创新组合,首次实现了模糊医学图像分割中精准与多样的协同提升,既解决了传统方法“顾此失彼”的痛点,又兼顾了效率与医学适配性,为AI辅助医学影像诊断提供了更可靠、更实用的新方案。从定性结果来看,ATFM的分割结果既能精准还原病变细节,又能呈现多种符合医学逻辑的标注形式,远优于其他先进方法。

2025-12-23 00:18:51 331

原创 【山东工商大学-AAAI26】整合方向、频率 - 空间和结构注意力用于医学图像分割

它能自动学习关键区域的结构 orientations,比如肿瘤的长轴方向、器官的边缘走向,让AI对细微结构的敏感度大幅提升,不会错过重要细节。这个模块就像“智能过滤器”,先筛选出编码器和解码器中最有价值的特征,再通过多尺度卷积扩大感知范围,最后聚焦于高优先级区域,让融合后的特征更纯粹、边界更清晰。这款融合方向感知、多维度特征融合和智能筛选的AI解码器,彻底解决了医学影像分割“抓不住细节、理不清结构”的痛点,为临床诊断和治疗提供了更精准、更可靠的自动化工具,推动智能医疗向高精准化迈出关键一步!

2025-12-22 00:40:38 270

原创 【影石-arXiv25】Depth Any Panoramas:一种用于全景深度估计的基础模型

阶段2:用这个标注器给190万张无标注图生成“伪标签”,再用AI判别器筛选出60万张最靠谱的样本,训练“真实感无关标注器”,弱化合成与真实数据的差异;可插拔距离过滤头:提供10/20/50/100米4种距离阈值,室内用10米阈值聚焦近景,室外用100米阈值覆盖远景,灵活适配不同场景;:传统数据集规模小、场景单一,要么只有室内数据,要么室外样本稀缺,且合成数据与真实场景差距大,导致模型“见过的场景太少”;:室内空间紧凑(距离多在10米内),室外场景开阔(距离可达百米级),现有模型难以同时适配两种极端尺度;

2025-12-21 09:17:48 266

原创 【南开大学-程明明组-AAAI26】一种用于多模态遥感目标检测的统一模型

优势:通过动态路由,让每个局部网格特征都能匹配到最适合的专家,既学到不同模态的共性(比如“目标都有空间轮廓”),又保留每种模态的独特性(比如雷达图像的纹理特征),避免特征冲突。这些问题的核心在于:多模态数据的“差异鸿沟”和多任务学习的“优化矛盾”,传统模型要么无法兼顾不同模态的独特性,要么在多任务训练中出现“有的学不好、有的学太满”的情况。:遥感场景中,目标可能是水平摆放的汽车,也可能是倾斜的桥梁,但传统模型只能固定输出一种格式的检测框,灵活性极差。

2025-12-20 09:10:35 352 1

原创 【港科大-AAAI26】RoadSceneVQA:智能交通系统中路侧感知系统的视觉问答基准测试

Assisted Decoupled Chain-of-Thought(AD-CoT):让大模型(如GPT-4o)先教小模型“怎么思考”,比如“先看红绿灯,再看行人位置,最后判断是否违规”,小模型学完后,哪怕只有0.9B参数(比同类8B模型小一个量级),推理能力也不落下风。值得一提的是,模型在“天气识别”“红绿灯判断”等感知任务上准确率超58%,在“违规推理”这类高难度任务上也能稳定发挥,完全满足实际应用需求。规模够大:包含34736组“问题-答案”对,覆盖晴天、雨天、白天、夜晚等不同场景;

2025-12-19 00:12:45 402

原创 【清华大学-MM25】Open3D VQA:面向无人机开放空间的多模态大语言模型空间推理基准

Open3D-VQA基准首次构建了空中视角下的三维空间推理评测体系,既揭示了当前AI在距离测算、视角转换等任务中的短板,也为无人机导航、城市智能分析等领域的技术优化提供了关键支撑。模拟数据微调效果显著:仅用模拟场景数据微调后,LLaVA和Qwen2-VL在真实场景中的推理准确率分别提升6.5%和22.3%,验证了数据的泛化价值。多维任务设计:涵盖4种空间视角(如上帝视角、第一人称视角)和7类推理任务,包括物体大小对比、绝对距离测算、视角转换推理等,全面覆盖城市空间推理需求;

2025-12-18 08:43:04 534

原创 【武汉大学-AAAI26】S5: 遥感中的可扩展半监督语义分割

S5框架通过百万级优质数据集、规模化半监督预训练和多任务高效微调的创新组合,首次实现了遥感半监督学习的规模化应用,让海量无标注遥感数据“物尽其用”,为遥感图像分析的低成本、高通用、规模化推进提供了全新解决方案。在DIOR-R、DOTA-v2.0数据集上,S5的ViT-L模型mAP(平均精度)达到75.21%,比同类模型参数少一半却性能更优,对飞机、桥梁等旋转目标的检测精度显著提升;S5的ViT-L模型处理多数据集时,分割参数仅为现有模型的1/3,却能保持更优性能,兼顾了“轻量性”和“强性能”;

2025-12-17 00:17:08 350

原创 【北理工-AAAI26】Earth-Adapter:专治卫星图像分割的“干扰顽疾”

面对不同场景(如城市到乡村、A数据集到B数据集)的适配挑战,Earth-Adapter平均mIoU达59.0%,较基线提升9.0%,其中在“城市到乡村(U2R)”任务中,性能提升高达24.0%,彻底解决了跨场景适配难题。Earth-Adapter通过“频率拆分+多适配器优化+动态融合”的创新思路,攻克了视觉基础模型在遥感图像分割中的干扰难题,以高效、通用的优势成为该领域的SOTA方案,为遥感AI的工程化落地提供了新路径。整个流程参数高效(仅2.6M-9.6M可训练参数),且不改变原始模型结构,适配性极强。

2025-12-16 00:17:17 756

原创 【山东大学-丛润民组-AAAI26】通过对齐器和提示器增强DINO表征用于水下实例分割

而DINOv2这类先进的自监督视觉模型,虽在自然图像任务中表现出色,但因“领域差异过大”(没见过多少水下场景),直接套用会受背景噪声干扰,甚至漏检目标。先通过傅里叶分解技术,提取水下图片的颜色风格特征(保留频率域的振幅信息,固定平均相位),过滤掉物体本身的干扰,只保留水下独有的色调特性;两个模块协同工作,既让模型适应了水下的“视觉风格”,又帮模型找准了“关注重点”,完美解决了DINOv2的水下适配问题。先生成一张“黑白掩码图”,用简单的二进制标记(黑色=背景,白色=物体)告诉模型“哪里有物体”;

2025-12-15 10:24:15 929

原创 【澳门大学-AAAI26】医学AI新突破:既能圈病灶,又能讲明白——Sim4Seg让诊断更可信!

Sim4Seg通过“联动数据集+智能定位模块+多思路验证策略”,首次实现了医学影像“精准分割病灶+可解释诊断”的一体化,为医学AI融入临床诊疗流程提供了可行方案,推动AI从“辅助参考”向“诊疗伙伴”迈出关键一步。数据与模型“不匹配”:传统数据集要么只有影像和分割标注,要么只有诊断结果,缺乏“病灶位置+诊断推理过程”的联动数据,导致模型无法学习到“看哪里→怎么判断→得出结论”的完整逻辑。泛化能力不足:面对X光、超声、内镜等不同模态的影像,或未训练过的疾病类型时,模型性能大幅下降,难以适应复杂的临床场景。

2025-12-14 01:03:39 792

原创 【南京理工-AAAI26】用于跨域少样本分割的分层语义学习

但现实场景中,训练数据(源领域)和实际应用数据(目标领域)往往差异巨大,比如用鸟类图片训练的模型,很难直接分割医学皮肤病变图或卫星遥感图,这就是“跨域少样本分割(CD-FSS)”的核心挑战。相比DRA方法,HSL框架的可训练参数从59.3M降至17.2M,计算量(FLOPs)从257.0G降至226.9G,推理速度(FPS)从36.90提升至43.29,实现了“更轻量、更快、更准”。前景风格随机化:用图片中随机局部区域的风格,调整前景物体的风格,模拟目标领域中前景与背景差异小的场景,不破坏图像核心语义。

2025-12-13 01:09:54 837

原创 【北理工-AAAI26】MODA:首个无人机多光谱目标检测数据集

MODA数据集填补了多光谱航拍检测的data gap,OSSDet模型实现了光谱与空间信息的高效融合,二者共同为航拍目标检测提供了“数据可靠、模型高效”的新方案,推动多光谱技术从实验室走向真实应用。:多光谱图像能捕捉物体的固有反射特征,哪怕目标小、背景乱,也能靠光谱差异识别,但此前没有足够规模、贴近真实场景的训练数据,导致技术发展受限;从实验图能看到,其他方法容易漏检小目标、误判背景,而OSSDet能精准锁定目标,哪怕是低光照、杂乱背景下,也能减少假阳性和漏检情况。

2025-12-12 00:38:12 397

原创 【复旦-AAAI26】Segment Anything Across Shots

复旦团队通过TMA数据增强、SAAS专用模型和Cut-VOS基准,首次系统性解决了多镜头视频目标分割的核心难题,让AI在镜头切换时也能精准追踪目标,为视频智能编辑、多摄像头监控等实际应用提供了强有力的技术支撑。:不同镜头中目标的外观、位置、背景可能发生剧烈变化,现有模型(如SAM2、XMem)性能会暴跌,SAM2-B+在多镜头场景下的J&F值甚至下降21.4%;:多镜头视频的标注成本极高,目前仅有YouMVOS一个相关数据集,且存在标注未开源、镜头切换少、目标类别单一(以人类为主)等问题;

2025-12-11 01:32:54 773

原创 【重庆邮电-AAAI26】突破CLIP弱监督分割瓶颈!SSR双维度校正方案,mIoU高达79.5%

SSR通过语义维度的跨模态原型对齐和空间维度的超像素引导校正,完美解决了基于CLIP的弱监督语义分割中“非目标前景过激活”和“背景误激活”问题,在两大权威数据集上实现SOTA性能,为弱监督分割的工程化落地提供了高效且精准的新方案。在PASCAL VOC数据集上,SSR取得79.5%(验证集)和79.6%(测试集)的mIoU成绩,不仅超越所有单阶段方法,还超过了复杂的多阶段方法(如VPL的79.3%);而近年来大火的CLIP模型,凭借其强大的跨模态语义理解能力,成为WSSS任务的热门选择。

2025-12-09 09:30:21 390

原创 【南航-AAA26】AI也会“隐身术”?文本可控的逼真伪装图生成技术来了!

比如给青蛙图片生成“绿色带黑斑的青蛙,与细长的鲜绿草叶、三叶草背景完美融合,纹理颜色高度一致”的描述,让AI懂“逻辑”。它能读取物体的轮廓掩码,精准指导AI生成时的物体位置、形状,确保“该藏的地方藏,该露的轮廓不歪”,解决了传统方法中物体与背景错位的问题。CT-CIG靠“文本提示+精准控制+细节细化”,让AI生成的伪装图既“藏得住”又“不违和”,不仅破解了伪装图生成的逻辑与真实度难题,还为相关AI研究提供了高质量数据支撑,开启了文本可控伪装生成的新范式。伪装的精髓在细节,比如蝴蝶翅膀纹理与花瓣脉络的呼应。

2025-12-08 09:35:20 748

原创 【东南大学-AAAI26】又快又准!EM-KD让轻量多模态模型“看懂图”不打折

为了落地,研究者们只能压缩或删减视觉token,可代价是:token少了,图像细节丢了,模型要么“看走眼”,要么“看不懂”,精准度直线下降。:之前用“知识蒸馏”(让小模型学大模型的本事)弥补性能损失,但忽略了一个关键问题——大模型(老师)的视觉token多,小模型(学生)的token少,两者数量不匹配、空间位置也对不上,知识根本传不透。EM-KD(高效多模态知识蒸馏框架)的核心思路是:先解决“师生token不匹配”,再精准传递“图像理解能力”和“图文结合能力”,三步实现“又快又准”。

2025-12-07 10:47:56 586

原创 【清华大学-AAAI26】一个模型通吃所有视频任务?SATA框架实现跨模态跟踪与分割“大一统”

先给大家科普下视频理解的核心需求:我们看视频时,可能需要做这些事——跟踪单个目标(比如追着一只跑的小狗)、跟踪多个目标(比如路口的车流)、给目标画轮廓(比如把人物和背景分开),甚至又跟踪又画轮廓(比如自动驾驶中识别前车并标注车身)。哪怕有些方法尝试做“通用模型”,也没解决两个关键矛盾:不同类型视频的数据规律差异太大(比如彩色和红外的画面特征完全不同),以及不同任务的核心需求不一样(跟踪要位置、分割要轮廓),导致模型学了一个任务就忘了另一个,通用性大打折扣。

2025-12-06 07:06:24 397

原创 【国防科大-AAAI26】突破 “文字依赖”!VKDet让无人机航拍识别未知物体更精准

但传统的“航拍目标检测技术”有个大问题:它只能认出提前“教过”的类别(比如预设好的“飞机”“桥梁”),遇到没见过的新物体就“瞎眼”了。VK-Det靠“只挖视觉潜力、不依赖文字标注”的思路,解决了航拍场景中未知物体识别的“文字依赖”难题,性能超过多数依赖额外标注的模型,为无人机巡检、灾害救援等场景的灵活识别提供了新方案。先把“有用区域”里的未知物体特征聚类,比如把不同形状的“未知建筑”聚成几类,每类形成一个“特征模板”(比如“圆顶模板”“方盒模板”);

2025-12-05 08:54:14 919

原创 【港中文-arXiv25】Thinking-while-Generating:在生成过程中思考的视觉生成新范式

TWIG 让视觉生成“像人在画图时一样边生成、边思考、边改进”,为视觉生成开启了真正的智能时代。🌀 TWIG 不需要重新开始生成,只在同一生成轨迹中局部插入修改,大幅降低成本。模型在生成每个局部区域(如背景、主体等)时,都会生成对应的推理文字进行。能否像人类绘画一样“边生成边思考”,让模型在生成过程中持续反思和调整?:确定在哪些步骤插入思考(通常为3步:上/中/下):生成后进行打分与局部反思,必要时只重绘该区域。核心思想:在图像生成过程中实时插入文本思考。:每一步生成局部描述,引导该区域的视觉生成。

2025-12-04 00:33:29 277

原创 【中国石油大学-AAAI26】无人机+自然语言!首个空中多目标追踪 benchmark 来了,还带超强追踪算法

但现在的智能追踪技术大多只适用于地面场景,想让无人机听懂人类的自然语言指令(比如“追踪路口红灯前的白色轿车”),精准锁定并跟踪目标,目前还缺乏成熟的解决方案。为了高效建好这个数据集,团队还发明了一个半自动化标注工具 COALA,不用人工逐帧标注:先让AI解析视频场景,生成描述模板,标注员只需点两下确定目标的出现和消失时间,AI就会自动跟踪目标轨迹,最后还能让AI生成更多样的语言指令,既省时间又保证质量。为了填补这个空白,研究团队做了两件大事:一是建了个超实用的数据集,二是设计了个超强的追踪算法。

2025-12-03 00:31:32 866

原创 【复旦-NIPS25】Seg2Any:让分割掩码“一键变图像”的开放式生成新框架

文章:Seg2Any: Open-set Segmentation-Mask-to-Image Generation with Precise Shape and Semantic Control。覆盖: ✔️ 开放式S2I(SACap-Eval) ✔️ 封闭式S2I(COCO-Stuff / ADE20K) ✔️ 与 8 大主流方法对比。Seg2Any让“分割掩码”成为真正的图像生成语言——从指定形状,到细节属性,全都能控!(mask + 文本 → 图像)思路,但现有方法仍面临两大痛点: ❌。

2025-12-02 08:18:45 348

原创 【华南理工大学-arXiv25】PaDT:让大模型直接“生成视觉内容”的统一视觉范式

即:模型不仅输出文字,还能输出“视觉参考 token”(Visual Reference Token, VRT), 从而实现真正的“视觉推理”。:即使同一任务,输出格式也不一致 → 见论文 Fig.2(a) 的例子,BBox 表达各不相同,难以解析。PaDT 让大模型真正“看得见”——不仅能说,还能直接输出视觉本身,是迈向通用视觉大模型的一次关键突破。代码:https://github.com/Gorilla-Lab-SCUT/PaDT。✔ 兼容多种任务:检测/分割/指代/Caption。

2025-12-01 08:22:21 582

原创 【南京理工大学-ICCV25】Controllable-LPMoE:大模型微调也要“可控”与“高效”!

📌 在 COD、SOD、PS、SLS、SD、GD 全面表现领先 📌 IoU、Dice、Fwm 等指标均大幅提升 📌 训练资源大幅缩减。但问题来了👇 ✔ 参数巨大(100M+) ✔ 显存占用高 ✔ 训练速度慢 ✔ 下游任务适应性有限。它不是“微调大模型”,而是“让大模型主动理解任务”——低成本,高表现,适配未来多任务分割时代。动态先验引导的微调范式(Dynamic Priors-based Fine-tuning)任务中,如伪装目标检测、显著性目标检测、息肉分割、皮肤病变分割等,近年的主流方法是采用。

2025-11-30 09:39:18 325

原创 【粤港澳大湾区数字经济研究院-arXiv25】Rex-Omni:基于下一点预测的“万能检测模型”

Rex-Omni 将视觉检测转化为“下一点预测”,以统一语言格式打通检测任务的壁垒,推动 MLLM 向真正的视觉大脑迈进。在 VisDrone / Dense200 数据集上,Rex-Omni 大幅减少重复检测问题,效果显著优于其他 MLLM。模型能理解复杂自然语言,如“穿黑靴的人”甚至“不是2号球衣的人”→ Rex-Omni 语言理解显著优于其他模型。代码:https://github.com/IDEA-Research/Rex-Omni。🔶 1️⃣ 统一的任务形式:坐标即语言。

2025-11-29 00:15:13 916

原创 【ICLR26匿名投稿】WIMFRIS:基于窗口 Mamba 融合的高效指代图像分割新框架

WIMFRIS 通过窗口式 Mamba 中间融合机制+轻量 PET 策略,在指代图像分割任务上实现高效且强大的跨模态理解,全面刷新SOTA。指代图像分割(Referring Image Segmentation, RIS)任务要求模型根据。🔶 1️⃣ 强大的中间融合模块:HMF(Hierarchical Mamba Fusion)相比普通的语义分割,RIS需要同时理解。这三者共同提升了视觉与语言的初始对齐效果,为后续融合打好基础。,避免 SSM 的信息衰减问题,提高局部细节与语义理解。

2025-11-28 09:21:48 244

原创 【中国科学技术大学-MICCAI25】LLM4Seg:语言大模型竟然能强化医学分割?一层LLM就能提升SOTA!

LLM不仅能说话,它还能理解医学图像,为CNN提供“语义增强”—— 只需一层LLM,就能带来SOTA级泛化性能!❗ LLM不生成文本 ❗ LLM不需要训练 ✔ 只负责“语义增强(Semantic Boost)”加入LLM层后: ✔ 背景噪声大幅减少 ✔ 病灶边界清晰可见 ✔ CNN更易恢复像素级分割。即使不训练LLM层,也优于从零训练Transformer层。LLM4Seg —— 在CNN中直接插入一层冻结的LLM。💡 二、方法创新:LLM变成“语义增强模块”❗ LLM层选择不同depth,会有性能波动。

2025-11-27 09:23:03 252

原创 【ICLR26匿名投稿】Look&Learn:让注意力变成分割器的视觉语言模型新范式!

🌟 不需要IoU、BCE、Dice → 不破坏注意力概率分布 🌟 Scale-invariant,适合稀疏注意力!Look&Learn证明:LLM不仅能理解图像,它还能像人一样“说的同时看准”——注意力即分割器!Understanding–Grounding Gap(理解–定位鸿沟)✔ 不改变网络结构 ✔ 不加入分割头 ✔ 不损害语言能力 ✔。✔ 后训练阶段也可直接使用(Post-training)GroundingDINO、OWL-V2等4模型投票。🌟 核心技术:Where-to-Look Loss

2025-11-26 10:04:59 404

原创 【ICLR26审稿评价极端论文】【ICLR26匿名投稿】Point2RBox-v3:从点标注出发的旋转框检测再进化!

文章:Point2RBox-v3: Self-Bootstrapping from Point Annotations via Integrated Pseudo-Label Refinement and Utilization。Point2RBox-v3 用“动态伪标签 + 先验评分”,让单点标注也能训练像全监督一样强的旋转目标检测模型!✔ 速度快于SAM全流程方案,精度远高于Point2RBox-v2。挑选最优Mask (如矩形度、颜色一致性、中心对齐等)自动驾驶、遥感、工业检测、场景文字识别。

2025-11-25 09:47:57 383

原创 【ICLR26看到的第二篇全正分Paper】【ICLR26匿名投稿】 SAM-Veteran:基于MLLM的人类式交互分割智能体

通过人工破坏的Mask训练“错误定位能力” ➡️ 强化模型对分割质量的理解能力,解决“永远在修正”的问题。SAM-Veteran 让 ML 模型第一次具备“像人一样分割图像”的能力,是多模态交互式分割的重要一步。分割过程 ✔ Mask理解能力强,具可解释性 ✔ 推理表现强,泛化能力好(跨数据集稳定)在图像分割过程中,随着迭代次数增加,模型逐步判定“足够好”并自动停止,节省计算量。传统图像分割模型往往依赖固定类别标签,无法处理诸如“穿红衣的人手里拿的物体”这类。✔ 完整模拟人类使用SAM的过程 ✔ 支持。

2025-11-24 09:24:07 848

原创 【ICLR26匿名投稿】PatchRefiner V2:高分辨率深度估计的轻量化革命

PatchRefiner V2 不是更大的模型,而是更聪明的模型: 它让轻量模型拥有“纠错思维”,从而真正迈入 4K 深度估计的实用时代。PRV1 使用 ZoeDepth 等大型模型生成 coarse depth,虽然精准,但速度太慢。在 PRV2 中,作者选择。在跨域迁移(Synthetic → Real)时,深度边界模糊、结构错乱是最大问题。🔄 3️⃣ Noisy Pretraining:让模型真正“学会纠错”在自动驾驶、AR/VR、3D重建等任务中,深度估计是核心能力,尤其是。

2025-11-23 00:22:02 779

原创 【ICLR26匿名投稿】UniRestorer:多粒度自适应的全能图像修复框架,让AI“看懂损坏程度再修图”!

去噪(Denoising)、去模糊(Deblurring)、去雨(Deraining)、去雾(Dehazing)、低光增强(Low-light)、去雪(Desnowing)等。UniRestorer,让图像修复模型第一次具备“自我判断能力”——先判损坏,再选专家,再修图。真正跨向通用AI修复时代。🌈 Mixed-Degradation:混合损坏数据集 CDD-11 也完胜!🔥 单任务修复(Single-degradation)SOTA!上均超越已有All-in-One方法: (表1,Fig.4)

2025-11-22 00:12:26 746

原创 到底什么样的文章才能打出满分【审稿人说】ICLR26|SAM 3: Segment Anything with Concepts

这一「Promptable Concept Segmentation (PCS)」任务超越了 SAM 1/2 的视觉提示(visual prompts),支持用简短名词短语(如“yellow school bus”)或图像示例作为输入,从而让模型“理解”概念而非仅响应几何提示。实验结果显示,SAM 3 在开放词汇分割上相较 SAM 2 提升显著,在 SA-Co benchmark 上性能提升约两倍,并保持交互分割与视频跟踪的实时性。:开放模型与代码,探索 end-to-end 优化。

2025-11-21 00:19:27 684

opencv4.4.0+vs2019+已经编译好

opencv4.4.0+vs2019+已经编译好

2021-09-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除