- 博客(5612)
- 资源 (2)
- 收藏
- 关注

原创 【荐读IEEE TPAMI】基于模型的强化学习与独立想象力
在基于视觉的交互系统中,世界模型学习行动的后果。然而,在实际场景中,如自动驾驶,存在不可控制的动态,这些动态独立于或与行动信号稀疏相关,这使得学习有效的世界模型变得具有挑战性。为了解决这个问题,我们提出了Iso-Dream++,这是一种基于模型的强化学习方法,具有两个主要贡献。首先,我们优化了逆动力学,鼓励世界模型从环境混合的时空变化中隔离出可控制的状态转换。其次,我们基于解耦的潜在想象进行策略优化,我们将不可控制的状态滚动到未来,并将其与当前可控制的状态自适应地关联起来。
2024-05-18 19:15:00
1204

原创 【荐读IEEE TPAMI】无监督去雨:非对称对比学习与自相似性相遇
大多数现有的基于学习的去雨方法都是在合成的雨-清洁对上进行有监督训练的。合成雨与真实雨之间的领域差距使它们在复杂的真实雨场景中的泛化能力降低。此外,现有方法主要独立利用图像或雨层的属性,很少有方法考虑它们之间的相互排斥关系。为了解决这一困境,我们探索了每层内部的内在自相似性以及两层之间的相互排斥性,并提出了一种无监督的非局部对比学习(NLCL)去雨方法。非局部自相似性图像块作为正样本被紧密地拉在一起,而雨块作为负样本则被显著地推开,反之亦然。
2024-05-13 12:24:06
1005
原创 CVPR 2024 | CycleINR:用于医学数据任意尺度体超分辨率的循环隐式神经表示
在医学3D数据(如CT和MRI图像)领域,普遍存在的各向异性分辨率表现为高切片内分辨率和较低的切片间分辨率。相邻切片之间的低分辨率带来了挑战,阻碍了最佳的观察体验,并影响了鲁棒的下游分析算法的开发。各种体超分辨率算法旨在克服这些挑战,提升切片间分辨率和整体3D医学成像质量。然而,现有方法面临固有挑战:1)通常针对特定的上采样因子设计,缺乏应对多样化临床场景的灵活性;2)新生成的切片经常出现过平滑现象,导致细节丢失和切片间不一致。
2025-04-04 19:56:09
2
原创 医图论文 AAAI‘25 | 面向生物医学的多模态大语言模型及其像素级洞察力
近年来,多模态大语言模型(MLLM)取得了显著进展,展示了开发智能生物医学助手的可行性。然而,当前的生物医学MLLM主要集中在图像级别的理解,并将交互限制在文本命令上,从而限制了其能力边界和使用灵活性。在本文中,作者介绍了一种新颖的端到端多模态大语言模型,名为MedPLIB,该模型具有像素级别的理解能力。令人兴奋的是,它支持视觉问答(VQA)、任意像素级别的提示(点、边界框和自由形状)以及像素级别的定位。
2025-04-04 19:55:14
5
原创 AAAI 2024 | NumbOD: 针对目标检测器的空间-频率融合攻击
随着深度学习的进步,各种架构的目标检测器(ODs)在自动驾驶等复杂场景中取得了显著成功。以往针对ODs的对抗攻击主要集中在设计针对其特定结构(如NMS和RPN)的定制攻击,虽然取得了一些成果,但也限制了其可扩展性。此外,大多数针对ODs的攻击源于最初为分类任务设计的图像级攻击,导致在目标无关区域(如背景)产生冗余计算和干扰。因此,如何设计一种模型无关的高效攻击来全面评估ODs的脆弱性仍然是一个具有挑战性且未解决的问题。本文提出了NumbOD,一种全新的空间-频率融合攻击,旨在破坏图像中的目标检测。
2025-04-04 09:30:00
1
原创 Arxiv 2024 | 基于混合Transformer-Mamba网络的单图像去雨
现有的去雨Transformer模型采用固定范围窗口或沿通道维度的自注意力机制,限制了非局部感受野的利用。针对这一问题,作者提出了一种新颖的双分支混合Transformer-Mamba网络,称为TransMamba,旨在有效捕捉长距离的雨纹相关依赖关系。基于雨纹退化和背景在频域中的不同特征先验,作者在第一个分支中设计了频带Transformer模块。自注意力机制在频域通道维度的组合中执行,以提高建模长距离依赖关系的能力。为了增强频率特定信息,作者提出了一个频域增强的前馈模块,用于在频域中聚合特征。
2025-04-04 09:30:00
1
原创 TPAMI 2024 | 区域评估:揭示目标检测中的空间偏差
目标检测器的一个基本限制是它们存在“空间偏差”,尤其是在检测靠近图像边界的物体时表现不佳。长期以来,缺乏有效的方法来测量和识别空间偏差,且对其来源和程度知之甚少。为此,我们提出了一种新的区域评估协议,从传统评估扩展到更广义的评估,通过区域测量检测性能,生成一系列区域精度(ZPs)。我们首次提供了数值结果,显示目标检测器在不同区域的表现差异显著。令人惊讶的是,检测器在图像96%的边界区域中的表现未能达到AP值(平均精度,通常被视为整个图像区域的平均检测性能)。
2025-04-04 09:30:00
6
原创 TPAMI 2025 | 多模态多属性对比预训练框架用于图像美学计算
在图像美学计算(IAC)领域,大多数现有方法依赖于在大规模ImageNet数据库上预训练的现成骨干网络。尽管这些预训练骨干网络取得了显著的成功,但它们往往过度强调对象级别的语义,未能捕捉到图像美学的高层次概念,导致性能可能不够理想。为了解决这一长期被忽视的问题,作者提出了一个多模态多属性对比预训练框架,旨在为IAC构建一个替代ImageNet预训练的方案。具体来说,该框架包括两个主要方面:(1)作者构建了一个基于人类反馈的多属性图像描述数据库,利用多模态大语言模型的强大图像理解能力生成丰富的美学描述。
2025-04-04 09:30:00
5
转载 没有穿越,DeepSeek-V3又登顶了!杭州黑马撼动硅谷AI霸主,抹去1万亿市值神话
在AI大模型竞技场LMSYS上,发布不到半个月的DeepSeek-V3-0324,已经超过了曾经的「当红炸子鸡」DeepSeek-R1!腾讯旗下拥有超10亿用户的微信平台,将DeepSeek的模型接入后,用户量呈爆发式增长,迅速成为中国AI领域的明星企业。作为异军突起的现象级产品,DeepSeek的增长速度除了创造AI产品的增长奇迹,更是重新定义了全球的AI竞赛格局。奥特曼也表达了自己的焦虑,并考虑开源,像DeepSeek一样,让模型公开可用和可修改,从而降低使用成本。
2025-04-03 12:38:17
23
转载 稚晖君刚挖来的90后机器人大牛:逆袭履历堪比爽文男主
在采访中,罗剑岚坦承自己因为在科研项目中关注到UC伯克利分校卡泽洛尼教授领衔的实验,其后有缘又在天津举办的机器人研究国际会议上,获得了直接向卡泽洛尼教授发问的机会,并进一步在会后递上了自己的简历,向教授明确表达:“我想读您的研究生!而且也是在这次会议上,罗剑岚的半年苦功也换来了回报,他获得提问机会,把几个月来的思考化成几个刁钻的问题抛给了教授,卡泽洛尼会后再次找到他给出认可:“小伙子,不出意外,我想,我要把你带到伯克利。他查到卡泽洛尼教授将赴韩国参加一场有关机器人的国际会议,随即办好签证就追了过去。
2025-04-03 12:38:17
13
原创 AAAI 2024 | 基于多粒度线索的动态量化:图像超分辨率中的粒度思考
动态量化在图像超分辨率(SR)中引起了越来越多的关注,因为它能够在保持竞争力的性能的同时,将重型SR模型的潜力扩展到移动设备上。现有的方法探索了基于不同局部区域的层到比特配置,自适应地为每个层和图像块分配比特。尽管有这些优点,它们仍然在SR精度和量化效率之间的权衡上存在不足。此外,为每个层单独调整量化级别可能会扰乱原始的层间关系,从而降低量化模型的表示能力。在本文中,作者提出了Granular-DQ,该方法利用图像的固有特性,同时摒弃了之前对层敏感性的考虑。
2025-04-03 09:30:00
6
原创 TIP 2025 | 通过多粒度置信度对齐优化伪标签的无监督跨域目标检测
大多数最先进的目标检测方法由于训练和测试数据集之间的域偏移而泛化能力较差。为了解决这一挑战,无监督跨域目标检测被提出,旨在通过从标注的源域转移知识来学习一个适用于未标注目标域的目标检测器。尽管Mean Teacher方法取得了令人瞩目的成果,但伪标签作为互学习的关键瓶颈仍有待进一步探索。在本研究中,作者发现预测中的置信度错位,包括类别级别的过度自信、实例级别的任务置信度不一致以及图像级别的置信度聚焦偏差,会导致在训练过程中注入噪声伪标签,从而影响性能。
2025-04-03 09:30:00
5
原创 TPAMI 2024 | Wasserstein判别字典学习用于图表示
挖掘判别性图拓扑信息在提升图表示能力方面起着重要作用。然而,它面临两个主要问题:(1) 计算全局类间/类内散度的困难/复杂性,通常与图样本的均值和协方差相关;(2) 图拓扑结构的巨大复杂性和多样性,难以稳健地表征。本文提出了Wasserstein判别字典学习(WDDL)框架,通过鲁棒的图拓扑建模实现图的判别学习,从而促进基于图的模式分析任务。考虑到计算全局类间/类内散度的困难,首先通过生成具有表达性拓扑结构的代表性图样本(即图键)构建图字典。
2025-04-03 09:30:00
10
原创 CVPR 2024 | 持续自监督学习:迈向通用多模态医学数据表示学习
自监督学习(SSL)是医学图像分析中的一种高效预训练方法。然而,当前的研究大多局限于某些特定模态,耗费大量时间和资源,却未能实现跨模态的通用性。一个直观的解决方案是将所有模态数据结合起来进行联合SSL,但这在实际操作中面临诸多挑战。首先,作者通过实验发现,随着模态数量的增加,表示学习会出现冲突。其次,预先收集的多模态数据无法覆盖所有现实场景。本文从持续学习的角度重新审视了多模态SSL,并提出了MedCoSS,一种用于多模态医学数据的持续SSL方法。
2025-04-03 09:30:00
13
原创 医图论文 TIP‘24 | 半监督医学图像分割中的边界感知原型
真实标签在半监督医学图像分割(SSMIS)中起着重要作用,因为它在标签有限的情况下能够提供最准确的监督信息。目前流行的SSMIS方法分别训练标注数据和未标注数据,未标注数据无法直接受到真实标签的监督,这限制了标签对模型训练的贡献。是否存在一种交互机制,能够打破两类数据训练之间的分离,从而最大化利用真实标签?受此启发,作者提出了一种基于边界感知原型的非参数距离度量的一致性学习框架,以缓解这一问题。该方法将基于CNN的线性分类和基于最近邻的非参数分类结合到一个框架中,鼓励两种分割范式对同一输入产生相似的预测。
2025-04-03 09:30:00
13
原创 TPAMI 2025 | MulFS-CAP:用于未配准红外 - 可见图像融合的多模态融合监督跨模态对齐感知方法
在本研究中,作者提出了多模态融合监督跨模态对齐感知(MulFS-CAP),这是一种用于未配准红外 - 可见图像单阶段融合的新框架。传统的两阶段方法依赖于显式配准算法在空间上对齐源图像,这通常会增加复杂性。相比之下,MulFS-CAP将隐式配准与融合无缝结合,简化了流程,提高了在实际应用中的适用性。MulFS-CAP利用共享的浅层特征编码器在单阶段融合未配准的红外 - 可见图像。为满足特征级对齐和融合的特定要求,作者通过可学习的模态字典开发了一种一致特征学习方法。该字典为单模态特征提供补充信息,从而保持单个模
2025-04-03 09:30:00
11
转载 导师对帮助研究生顺利完成学业提出了20条劝告:第一,不要有度假休息的打算..
要对这20条法规有一个较好的理解,研究生首先需要对自己的导师有一个清楚的了解,否则就会产生新的问题,同时对这20条执行起来也有些困难。师生之间很多很多的不愉快的事情的发生,多是由于这个环节没有得到重视,或者草率,或者被忽视了所致。导师不会在初期就期望你发表论文,但一年或更长的时间以后,如果你创造力还低于平均水平,你应该抬头看看导师的脸色。在论文质量第一,不追求数量的前提下,你发表的学术论文质量越高,你的学位论文也就会越优秀。与导师意见有分歧,如果你觉得你是对的,那么就想办法去说服导师,这样他也会高兴的。
2025-04-02 11:30:22
7
转载 改变几行代码,PyTorch炼丹速度狂飙、模型优化时间大减
与以前不同的是,微调部分在 LightningModel 类中包装了 PyTorch 模型,并使用 Trainer 类来拟合模型。据他表示,他的方法在不影响模型准确率的情况下,仅仅通过改变几行代码,将 BERT 优化时间从 22.63 分钟缩减到 3.15 分钟,训练速度足足提升了 7 倍。在模型运行了 22.63 分钟后进行微调,最终的测试准确率为 91.43%。首先是模型,作者采用 DistilBERT 模型进行研究,它是 BERT 的精简版,与 BERT 相比规模缩小了 40%,但性能几乎没有损失。
2025-04-02 11:30:22
25
原创 TPAMI 2024 | Fast-BEV: 一种快速且强大的鸟瞰图感知基线
近年来,基于鸟瞰图(BEV)表示的感知任务引起了越来越多的关注,BEV表示有望成为下一代自动驾驶车辆(AV)感知的基础。然而,大多数现有的BEV解决方案要么需要大量资源来执行车载推理,要么性能表现一般。本文提出了一种简单而有效的框架,称为Fast-BEV,能够在车载芯片上执行更快的BEV感知。为此,我们首先通过实验发现,BEV表示可以在不需要昂贵的基于Transformer的变换或深度表示的情况下足够强大。
2025-04-02 09:30:00
10
原创 医图论文 Arxiv‘25 | LM-Net:一种轻量级多尺度医学图像分割网络
当前的医学图像分割方法在深入探索多尺度信息和有效结合局部细节纹理与全局上下文语义信息方面存在局限性,导致过分割、欠分割和分割边界模糊等问题。为了解决这些挑战,作者从不同角度探索多尺度特征表示,提出了一种新颖的轻量级多尺度架构(LM-Net),该架构结合了卷积神经网络(CNN)和视觉Transformer(ViT)的优势,以提高分割精度。LM-Net采用轻量级多分支模块来捕获同一层次的多尺度特征。
2025-04-02 09:30:00
13
原创 医图论文 Arxiv‘25 | PARF-Net:将像素级自适应感受野集成到混合Transformer-CNN网络中用于医学图像分割
卷积神经网络(CNN)在局部特征提取方面表现出色,而Transformer在处理全局语义信息方面具有优势。通过结合两者的优势,混合Transformer-CNN网络已成为医学图像分割任务中的主要架构。然而,现有的混合方法由于卷积的固定感受野,仍然存在局部语义特征学习不足的问题,并且在有效整合局部和长程依赖关系方面也存在不足。为了解决这些问题,作者提出了一种新方法PARF-Net,将像素级自适应感受野卷积(Conv-PARF)集成到混合网络中用于医学图像分割。
2025-04-02 09:30:00
19
原创 TCSVT 2025 | L2A:基于注意力学习亲和性的弱监督持续语义分割方法
尽管持续语义分割(CSS)取得了显著进展,但它们仍依赖像素级注释来训练模型,这既耗时又费力。从图像级标签进行持续学习是持续语义分割中一种新兴的方案,旨在降低注释成本。然而,不完整且粗糙的伪标签不足以训练模型在稳定性和可塑性之间保持平衡。为了解决这些问题,作者提出了一种基于Transformer的新型端到端框架,称为L2A,用于弱监督持续语义分割(WSCSS)。具体而言,为了从图像级监督中生成可靠的注释,作者引入了一种基于多头自注意力(SA - MHSA)的语义亲和模块,以捕捉相邻图像坐标之间的语义关系。
2025-04-02 09:30:00
81
原创 TPAMI 2025 | 用于自动驾驶的多模态数据高效 3D 场景理解
高效的数据利用对于推进自动驾驶中的3D场景理解至关重要,在这个领域中,完全监督的方法面临着依赖大量人工标注的激光雷达点云数据的挑战。为了解决这个问题,作者的研究扩展到激光雷达语义分割的半监督学习领域,利用驾驶场景的内在空间先验和多传感器的互补性来提高未标注数据集的效用。作者提出了LaserMix++,这是一个改进的框架,它整合了来自不同激光雷达扫描的激光束操作,并结合激光雷达 - 相机的对应关系,进一步辅助高效的数据学习。该框架通过融合多模态数据来增强3D场景一致性正则化,具体包括:1)多模态LaserMi
2025-04-02 09:30:00
16
原创 TIP 2024 | 基于解耦深度网络的高效单图像去雨模型
单图像去雨是许多户外计算机视觉应用中的一个新兴范式,因为雨条纹会显著降低图像的可见度并影响系统功能。深度学习的引入为去雨方法带来了显著的进步。然而,大多数现有的基于深度学习的方法使用单一的同构网络架构以通用的图像恢复方式生成去雨图像,忽略了雨位置检测和雨强度估计之间的差异。作者发现这种差异会导致特征干扰和表示能力下降的问题,从而显著影响去雨性能。本文提出了一种新颖的异构去雨架构,旨在解耦雨位置检测和雨强度估计(DLINet)。
2025-04-01 09:30:00
16
原创 TPAMI 2024 | 关系代理:细粒度关系作为零样本判别器
视觉类别在很大程度上共享相同的局部部分集合,仅基于部分信息无法区分它们,因为它们主要在局部部分与对象的整体全局结构之间的关系上有所不同。我们提出了关系代理(Relational Proxies),这是一种新颖的方法,利用对象的全局和局部视图之间的关系信息来编码其语义标签,即使对于训练期间未遇到的类别也是如此。我们从严格形式化共享属性的类别之间的可区分性概念开始,证明了模型必须满足的必要和充分条件,以学习区分它们的决策边界。
2025-04-01 09:30:00
82
原创 医图论文 Arxiv‘25 | MedFocusCLIP:利用像素级注意力改进医学数据集中的少样本分类
随着基础模型的流行,参数高效微调已成为利用预训练模型执行下游任务的事实标准方法。受大型语言模型、视觉提示调优(Visual Prompt Tuning)等最新进展的启发,作者通过学习额外的提示来高效微调预训练的视觉基础模型。然而,作者观察到这种提示方法在细粒度视觉分类任务(如医学图像分类)中表现不足,尤其是在类间差异大、类内差异小的情况下。
2025-04-01 09:30:00
262
原创 CVPR 2024 | 超越局部窗口限制:基于自适应令牌字典的高级超分辨率Transformer
单图像超分辨率(Single Image Super-Resolution, SR)是一个经典的计算机视觉问题,旨在从低分辨率(LR)图像中估计高分辨率(HR)图像。尽管深度神经网络(DNNs),尤其是基于Transformer的超分辨率方法,近年来取得了显著进展,但仍然存在一些挑战,特别是由于基于窗口的自注意力机制导致的有限感受野问题。为了解决这些问题,作者引入了一组辅助的自适应令牌字典(Adaptive Token Dictionary)到SR Transformer中,并提出了ATD-SR方法。
2025-04-01 09:30:00
19
原创 医图论文 CVPR‘24 | 用于半监督医学图像分割的自适应双向位移
一致性学习是处理半监督医学图像分割(SSMIS)中未标记数据的核心策略,它通过扰动使模型产生一致的预测。然而,当前大多数方法仅专注于利用单一的特定扰动,这只能应对有限的情况,而同时使用多种扰动则难以保证一致性学习的质量。本文提出了一种自适应双向位移(ABD)方法来解决上述挑战。具体而言,作者首先基于未标记数据的可靠预测置信度设计了一种双向图像块位移,以生成新的样本,这可以有效抑制不可控区域,同时保留输入扰动的影响。此外,为了迫使模型学习潜在的不可控内容,作者提出了一种基于逆置信度的双向位移操作,用于标记图像
2025-04-01 09:30:00
16
原创 TPAMI 2025 | 一器多用:基于单一样式生成对抗网络实现通用领域转换
本文中,作者提出了一种新颖的翻译模型UniTranslator,用于在训练数据有限且视觉差异显著的条件下,实现视觉上不同领域之间的表征转换。该方法的核心思想是利用CLIP(对比语言 - 图像预训练模型)的领域中立能力作为桥梁机制,同时使用一个单独的模块从源领域和目标领域的嵌入中提取抽象的、与领域无关的语义。将这些抽象语义与特定目标的语义融合,从而在CLIP空间中得到转换后的嵌入。为了弥合CLIP和StyleGAN两个不同世界之间的差距,作者引入了一种新的非线性映射器CLIP2P映射器。
2025-04-01 09:30:00
216
转载 最全总结!1000篇最新顶会论文!
对这领域有一定了解之后,选择自己认为这领域比较重要的几篇论文进行复现,感受一下这个领域的coding过程。发过顶会的同学都知道,做科研最主要还是靠自己,一篇能被录取的论文需要正确的方向+优雅的idea+扎实的工作。从看综述开始,切记要看高质心量的论文,通常就是说顶会顶刊的论文,大佬的论文,这样不容易被带偏。论文的切入点要够新颖,把问题凝练出来并具有一定的高度(站在领域的角度去思考问题)。言而总之,就是储备大量顶会顶刊论文,从大量的阅读中发掘自己的idea。找几篇写作不错的顶会论文,模仿着去写自己的论文。
2025-03-31 17:30:23
14
原创 CVPR 2024 | 基于小波域损失的生成式图像超分辨率模型训练方法实现更好的伪影控制
超分辨率(SR)是一个不适定的逆问题,给定一个低分辨率图像,其可行解集的大小非常大。许多算法被提出来在这些可行解中找到一个“好”的解,以在保真度和感知质量之间取得平衡。不幸的是,所有已知的方法在尝试重建高频(HF)图像细节时都会产生伪影和幻觉。一个基本的问题是:模型能否学会区分真实的图像细节和伪影?尽管最近的一些工作集中在细节和伪影的区分上,但这仍然是一个非常具有挑战性的问题,尚未找到令人满意的解决方案。本文表明,通过使用小波域损失函数训练基于GAN的SR模型,可以更好地学习真实高频细节与伪影的特征。
2025-03-31 09:30:00
12
原创 TPAMI 2024 | 基于视觉提示的教学视频时间答案定位
教学视频中的时间答案定位(TAGV)是从通用视频中的时间句子定位(TSGV)自然衍生出的新任务。给定一个未剪辑的教学视频和一个文本问题,该任务旨在从视频中定位能够语义上回答问题的帧跨度,即视觉答案。现有方法倾向于使用基于视觉跨度的预测器来解决TAGV问题,利用视觉信息预测视频中的起始帧和结束帧。然而,由于文本问题的语义特征与视觉答案之间的相关性较弱,当前使用基于视觉跨度的预测器的方法在TAGV任务中表现不佳。
2025-03-31 09:30:00
8
原创 TPAMI 2024 | 图像线段检测与描述的综合综述:分类、比较与挑战
图像线段是图像中物体和场景的直线、细长且连续部分的基本低层次视觉特征。线段的检测与描述为许多视觉任务奠定了基础。尽管已有许多研究致力于检测和描述线段,但缺乏全面的综述,阻碍了其进展。本研究填补了这一空白,全面回顾了关于检测和描述二维图像线段的相关研究,为研究人员提供了整体视角和深入理解。基于其机制,提出了两种线段检测与描述的分类方法,以介绍、分析和总结这些研究,帮助研究人员快速且广泛地了解它们。分析了现有方法的关键问题、核心思想、优缺点及其潜在应用,包括一些先前未知的发现。
2025-03-31 09:30:00
20
原创 医图论文 CVPR‘24 | 选择前请三思:面向领域偏移的医学图像分析的联邦证据主动学习
联邦学习(Federated Learning, FL)通过多个分布式医疗机构协作学习全局模型,而无需集中数据。然而,本地客户端的标注成本高昂,仍然是有效利用本地数据的障碍。为了缓解这一问题,联邦主动学习方法建议利用本地和全局模型的预测来选择相对较少但信息丰富的本地数据进行标注。然而,现有的方法主要关注从同一领域采样的所有本地数据,这使得它们在现实医疗场景中,尤其是在不同客户端之间存在领域偏移时,变得不可靠。本文首次尝试评估来自不同领域的本地数据的信息量,并提出了一种称为。
2025-03-31 09:30:00
17
原创 AAAI 2025 | InvSeg: 用于语义分割的测试时提示反演
从文本到图像扩散模型的注意力图中提取的视觉-文本相关性已被证明对密集视觉预测任务(如语义分割)有益。然而,由于用于图像生成的上下文丰富句子与通常用于语义分割的孤立类别名称之间的输入分布差异,带来了一个重大挑战。这种差异阻碍了扩散模型捕捉准确的视觉-文本相关性。为了解决这个问题,作者提出了InvSeg,一种测试时提示反演方法,通过将图像特定的视觉上下文反演到文本提示嵌入空间,利用扩散模型重建过程中提取的结构信息来丰富文本提示,从而将每个类别与结构一致的掩码关联起来。
2025-03-31 09:30:00
439
原创 ACM MM‘24 | 医学图像分类中类别增量学习的不平衡问题解决方法
深度卷积神经网络在医学图像分类领域取得了重大突破,前提是所有类别的训练样本可同时获取。然而,在现实医疗场景中,人们常常需要持续学习新疾病相关知识,这促使医学领域出现了类别增量学习(CIL)这一新兴领域。通常情况下,CIL在对新类别进行训练时会遭遇灾难性遗忘问题。这种现象主要是由新旧类别之间的不平衡导致的,并且在医学数据集不平衡的情况下,问题变得更加棘手。在这项工作中,作者介绍了两种简单却有效的插件式方法,以减轻这种不平衡带来的负面影响。
2025-03-31 09:30:00
107
转载 揭秘学阀现象:学术圈正在上演怎样的“门徒战争“?
当某院士坦言"没有图片误用怎配当院士"时,当32%的青年学者因压力考虑转行时,我们需要清醒认识到:唯有将学术权力关进制度的笼子,才能让中国科研摆脱"虚胖"困境,真正走向高质量发展的新阶段。建立"学术休耕期"制度,强制学科带头人五年轮岗交流。严格执行"非升即走"制度的同时,设立青年学者"学术创业基金",保证30%国家级课题向独立PI倾斜。推行"学术民主化运动",建立跨校学术共同体,定期举行"学术擂台赛"。行政化高校体系催生"学术包工头",教授通过拆解国家课题坐收30%管理费,形成"经费提成"灰色产业链;
2025-03-30 10:07:00
13
转载 揭秘学阀现象:学术圈正在上演怎样的“门徒战争“?
当某院士坦言"没有图片误用怎配当院士"时,当32%的青年学者因压力考虑转行时,我们需要清醒认识到:唯有将学术权力关进制度的笼子,才能让中国科研摆脱"虚胖"困境,真正走向高质量发展的新阶段。建立"学术休耕期"制度,强制学科带头人五年轮岗交流。严格执行"非升即走"制度的同时,设立青年学者"学术创业基金",保证30%国家级课题向独立PI倾斜。推行"学术民主化运动",建立跨校学术共同体,定期举行"学术擂台赛"。行政化高校体系催生"学术包工头",教授通过拆解国家课题坐收30%管理费,形成"经费提成"灰色产业链;
2025-03-30 10:07:00
6
转载 揭秘学阀现象:学术圈正在上演怎样的“门徒战争“?
当某院士坦言"没有图片误用怎配当院士"时,当32%的青年学者因压力考虑转行时,我们需要清醒认识到:唯有将学术权力关进制度的笼子,才能让中国科研摆脱"虚胖"困境,真正走向高质量发展的新阶段。建立"学术休耕期"制度,强制学科带头人五年轮岗交流。严格执行"非升即走"制度的同时,设立青年学者"学术创业基金",保证30%国家级课题向独立PI倾斜。推行"学术民主化运动",建立跨校学术共同体,定期举行"学术擂台赛"。行政化高校体系催生"学术包工头",教授通过拆解国家课题坐收30%管理费,形成"经费提成"灰色产业链;
2025-03-30 10:07:00
4
原创 AAAI 2024 | ZoRI: 面向判别性零样本遥感实例分割
遥感中的实例分割算法通常基于传统方法,限制了其在已知场景和封闭集预测中的应用。在这项工作中,作者提出了一个新的任务,称为零样本遥感实例分割,旨在识别训练数据中不存在的航空物体。分类航空类别时面临高类间相似性和类内方差等挑战。此外,视觉-语言模型预训练数据集与遥感数据集之间的领域差距,阻碍了预训练模型在直接应用于遥感图像时的零样本能力。为了解决这些挑战,作者提出了一个名为ZoRI的零样本遥感实例分割框架。该框架的特点是使用经过细化的文本嵌入来增强类别差异的判别性分类器。
2025-03-30 09:30:00
12
Python视觉实战项目31讲.pdf
2020-10-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人