
论文合集
文章平均质量分 83
paixiaoxin
这个作者很懒,什么都没留下…
展开
-
AAAI论文最佳解读|Noise-free Optimization in Early Training Steps for Image Super-Resolution-water-merged
本文探讨了基于深度学习的单图像超分辨率(SISR)方法在训练过程中面临的挑战,尤其是在早期训练步骤中固有噪声对模型稳定性的影响。研究表明,传统的训练方案未能充分考虑图像超分辨率的病态性质,导致训练过程对每个高分辨率(HR)图像样本的依赖性过强,从而引入噪声。为了解决这一问题,本文提出了一种新的优化方法,称为经验质心导向优化(ECO),通过在训练早期去除固有噪声,增强训练的稳定性。实验结果表明,ECO方法在提高模型性能方面具有显著优势,尤其是在训练的早期阶段。原创 2025-03-12 20:48:27 · 263 阅读 · 0 评论 -
AAAI论文最佳解读|Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering
本文研究了音频-视觉问答(AVQA)任务,旨在回答来自未剪辑音频视频的问题。为了生成准确的答案,AVQA模型需要找到与给定问题相关的最具信息量的音频-视觉线索。本文提出了一种面向对象的自适应正例学习策略,明确考虑视频帧中的细粒度视觉对象,并探索对象、音频和问题之间的多模态关系。通过设计问题条件线索发现模块和模态条件线索收集模块,模型能够集中注意力于与问题相关的关键词,并突出显示相关的音频片段或视觉对象。原创 2025-03-12 20:48:00 · 392 阅读 · 0 评论 -
AAAI论文最佳解读|Object-Aware Domain Generalization for Object Detection-water-merged
本文提出了一种面向对象的域泛化方法(OA-DG),旨在解决单域泛化(S-DG)在目标检测中的应用问题。传统的S-DG方法主要集中在分类任务上,导致在目标检测中可能损害对象的语义特征,从而引发不准确的目标定位和错误分类。OA-DG方法结合了数据增强和训练策略,分别称为OA-Mix和OA-Loss。OA-Mix通过多级变换和对象感知混合策略生成多域数据,确保在增强过程中保留对象的语义特征。OA-Loss则使模型能够从原始图像和OA-Mixed图像中学习域不变的表示。原创 2025-03-12 20:47:31 · 281 阅读 · 0 评论 -
AAAI论文最佳解读|Panoptic Scene Graph Generation with Semantics-prototype Learning-water-merged
本文提出了一种新的框架ADTrans,用于全景场景图生成(PSG),旨在解决由于标注者的语言偏好和谓词之间的语义重叠导致的偏置谓词标注问题。偏置标注使得PSG模型在构建清晰的决策平面时面临困难,从而影响其实际应用。ADTrans通过自适应地将偏置谓词标注转换为信息丰富且统一的标注,确保在迁移过程中保持一致性和准确性。该框架通过观察每个谓词类中表示的不变程度,学习不同强度的无偏原型,并持续测量每个表示与其原型之间的分布变化,从而识别和筛选潜在的偏置数据。原创 2025-03-12 20:46:51 · 241 阅读 · 0 评论 -
AAAI论文最佳解读|Point Transformer with Federated Learning for Predicting Breast Cancer HER2 Status from
本文提出了一种基于联邦学习的点变换器,用于从广泛可用的苏木精和伊红(HE)染色全切片图像(WSIs)中预测人表皮生长因子受体2(HER2)状态。准确预测HER2状态需要大量来自多个站点的WSIs,而联邦学习能够在不传输大规模数据的情况下进行协作训练,解决数据隐私问题。然而,联邦学习在处理来自不同站点的标签不平衡时面临挑战。为此,本文提出了一种动态标签分布策略和辅助分类器,以建立良好的初始化模型并减轻标签分布的变化。此外,采用基于余弦距离的最远余弦采样方法来捕获长距离依赖关系。原创 2025-03-12 20:46:16 · 688 阅读 · 0 评论 -
AAAI论文最佳解读|Point2Real Bridging the Gap between Point Cloud and Realistic Image for Open-World
本文提出了Point2Real,一个无训练框架,旨在缩小三维点云与真实图像之间的域差距,以实现开放世界的三维识别。考虑到三维点云和二维图像之间的显著差异,Point2Real通过形状恢复模块将点云转换为网格,并利用纹理渲染模块生成逼真的图像。该框架还引入了多视角适配器,以选择最具辨别力的视角进行特征聚合。实验结果表明,Point2Real在零样本和少样本任务中显著优于其他方法,展示了其在开放世界三维识别中的潜力。原创 2025-03-12 20:45:47 · 834 阅读 · 0 评论 -
AAAI论文最佳解读|Removing Interference and Recovering Content Imaginatively for Visible Watermark
本文提出了一种新颖的两阶段框架,名为去除干扰并恢复内容想象力(RIRCI),旨在有效去除可见水印并恢复背景内容。可见水印在保护图像版权的同时,常常会扭曲底层内容,影响场景解释和图像编辑等任务。现有方法通常将水印去除和背景恢复任务合并在一个分支中,导致残留水印和背景恢复不完全。RIRCI框架的第一阶段专注于识别和分离水印成分,第二阶段则致力于背景内容的恢复。为实现精细的背景恢复,本文提出了一个双路径网络,能够充分挖掘半透明水印下的内在背景信息和未受影响区域的上下文信息。原创 2025-03-12 20:45:14 · 273 阅读 · 0 评论 -
AAAI论文最佳解读|Sampling-Resilient Multi-Object Tracking-water-merged
本文提出了一种新的抗采样多目标跟踪(MOT)方法,旨在解决在高帧减少率下现有MOT方法性能显著下降的问题。研究者们提出了一种新颖的稀疏观测卡尔曼滤波器(SOKF),结合了长短期记忆(LSTM)网络,以捕捉由稀疏观测引起的非线性和动态运动模式。通过引入基于贝叶斯神经网络的新噪声估计机制,优化了卡尔曼增益,从而提高了跟踪的准确性。此外,研究还提出了一种综合相似性度量,系统地整合了多个空间匹配信号。实验结果表明,所提出的跟踪器在效率和准确性之间取得了最佳平衡,能够在相同的跟踪精度下显著减少处理时间。原创 2025-03-12 20:44:42 · 235 阅读 · 0 评论 -
AAAI论文最佳解读|SAVSR Arbitrary-Scale Video Super-Resolution via a Learned Scale-Adaptive Network
本文提出了一种新颖的任意尺度视频超分辨率网络(SAVSR),旨在解决现有视频超分辨率(VSR)网络仅支持固定整数倍超分辨率任务的问题。SAVSR是首个关注包括非整数和非对称尺度的空间VSR的工作。该网络引入了全维尺度注意力卷积(OSConv),根据输入的尺度动态调整,以提取更强的帧间特征。此外,提出的时空自适应任意尺度上采样(STAU)模块结合了时间特征和尺度信息,提升了VSR任务的表现。通过在多个基准数据集上的实验,SAVSR在非整数和非对称尺度上超越了最先进的方法,展示了其优越的性能和广泛的应用潜力。原创 2025-03-12 20:44:13 · 710 阅读 · 0 评论 -
AAAI论文最佳解读|SpectralNeRF Physically Based Spectral Rendering with Neural Radiance Field
本文提出了一种名为SpectralNeRF的端到端神经辐射场(NeRF)架构,旨在从新的光谱角度实现高质量的物理基础渲染。该方法将经典的光谱渲染过程分为两个主要步骤:首先生成一系列跨越不同波长的光谱图,然后将这些光谱图组合以生成RGB输出。SpectralNeRF通过提出的多层感知器(MLP)架构(SpectralMLP)和光谱注意力U-Net(SAUNet)实现这两个步骤。实验结果表明,SpectralNeRF在合成新视角的合成和真实数据集上优于现有的基于NeRF的方法,展示了其在复杂场景中的优越性能。原创 2025-03-12 20:43:45 · 221 阅读 · 0 评论 -
AAAI论文最佳解读|Spectrum Translation for Refinement of Image Generation (STIG) Based on Contrastiv
本文提出了一种新的框架,称为光谱转换图像生成细化(STIG),旨在通过对比学习有效减轻生成图像在频域中的差异,从而提高生成对抗网络(GAN)和扩散模型(DM)的生成性能。尽管现有的生成模型在图像生成方面取得了显著进展,但在频率域中仍然存在固有的差异,导致生成图像的质量下降。STIG通过对生成图像的频谱进行细化,利用图像到图像的转换和对比学习的概念,显著降低了生成图像的FID(Fréchet Inception Distance)和频谱的对数频率距离。原创 2025-03-12 20:43:15 · 844 阅读 · 0 评论 -
AAAI论文最佳解读|Temporal-Distributed Backdoor Attack Against Video Based Action Recognition
本文提出了一种新的后门攻击方法,针对视频动作识别系统的脆弱性进行研究。尽管深度神经网络(DNN)在视频动作识别等领域取得了显著成功,但它们仍然容易受到后门攻击。传统的后门攻击通常通过在训练集中嵌入特定触发器来实现,而本文提出的攻击方法则利用视频的时间维度,设计了一种不可感知的时间分布触发器,能够在视频帧中隐蔽地传播。通过在多个视频识别基准(如UCF101和HMDB51)以及手语识别基准(希腊手语数据集)上进行广泛实验,验证了该攻击的有效性和隐蔽性。原创 2025-03-12 20:42:45 · 822 阅读 · 0 评论 -
AAAI论文最佳解读|Towards Automated Chinese Ancient Character Restoration A Diffusion-Based Method wit
本文提出了一种新的自动汉字古籍修复方法(ACACR),旨在解决古代汉字修复中的挑战。现有方法受限于非专业掩码和小规模数据集,导致过拟合,限制了其在传统领域的应用。为此,作者引入了中国古代拓片和手稿字符数据集(ARMCD),该数据集包含15,553张真实的古代单字符图像,涵盖了200至1800年间200多位书法家的作品。作者还提出了一种基于扩散的修复方法DiffACR,将腐蚀图像的合成视为未腐蚀图像上的冷扩散,并直接从腐蚀图像中提取先验掩码。原创 2025-03-12 20:42:16 · 687 阅读 · 0 评论 -
AAAI论文最佳解读|Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport
本文提出了一种新颖的无监督跨域图像检索(UCIR)方法,称为ProtoOT,旨在在不同领域中检索共享相同类别的图像,而无需依赖标记数据。以往的UCIR方法通常将问题分解为域内表示学习和跨域特征对齐两个独立任务,然而这种分离的策略忽视了这两个任务之间的潜在协同作用。ProtoOT通过将这两个任务整合到一个统一的框架中,利用K均值聚类方法有效管理UCIR中的分布不平衡问题。通过生成初始原型并近似类边际分布,ProtoOT显著提升了在UCIR场景中的性能。原创 2025-03-12 20:41:39 · 444 阅读 · 0 评论 -
AAAI论文最佳解读|VLM2Scene Self-Supervised Image-Text-LiDAR Learning with Foundation Models fo
本文提出了一种名为VLM2Scene的新方法,旨在利用视觉和语言基础模型(VLMs)来增强3D自监督表示学习,特别是在自动驾驶场景理解中。VLM2Scene通过图像-文本-激光雷达对比学习策略,克服了LiDAR点云稀疏性带来的挑战。该方法强调区域级学习,利用来自视觉基础模型的区域掩码生成细粒度的语言描述,并通过区域语义一致性正则化来提高语义一致性。实验结果表明,VLM2Scene在多个自动驾驶数据集上显著优于现有方法,展示了其在3D场景理解中的潜力。原创 2025-03-12 20:41:06 · 497 阅读 · 0 评论 -
AAAI2024最佳解读|DeepAccident A Motion and Accident Prediction Benchmark for V2X Autonomous Driving
本文提出了DeepAccident,一个用于V2X(车联网)自动驾驶的运动和事故预测基准数据集。该数据集通过逼真的模拟器生成,包含多种在现实世界中常见的事故场景,旨在填补现有数据集中对安全关键场景的缺失。DeepAccident数据集包括57K个标注帧和285K个标注样本,规模约为现有大型nuScenes数据集的7倍。此外,本文还提出了一项新的任务——端到端运动和事故预测,能够直接评估不同自动驾驶算法的事故预测能力。原创 2025-03-11 14:52:24 · 491 阅读 · 0 评论 -
AAAI2024最佳解读|Deep Unfolded Network with Intrinsic Supervision for Pan-Sharpening-water-merged
本文提出了一种具有内在监督的可解释深度展开网络,用于全色锐化(pan-sharpening)。现有的深度全色锐化方法在中间层缺乏对全色(PAN)和多光谱(MS)模态之间互补信息的学习,且由于黑盒设计而表现出较低的可解释性。为此,本文将全色锐化任务表述为具有空间一致性和光谱投影先验的变分模型最小化问题。通过在中间层进行监督,该方法能够选择性地提供高频信息以增强空间细节,同时约束MS和PAN图像之间的强度相关性,从而提高光谱保真度。实验结果表明,所提出的方法在多个数据集上优于现有技术,展现出良好的泛化能力。原创 2025-03-11 14:52:10 · 378 阅读 · 0 评论 -
AAAI2024最佳解读|Data-Free Generalized Zero-Shot Learning-water-merged
本文提出了一种无数据零样本学习(DFZSL)框架,旨在解决在没有真实数据的情况下进行零样本分类的问题。传统的零样本学习方法通常依赖于基础类的真实图像和手动标注的属性,这在数据隐私和版权方面存在挑战。为此,本文提出的DFZSL框架包括三个主要组件:首先,通过将基础类图像的CLIP特征建模为von Mises-Fisher(vMF)分布,恢复基础数据的虚拟特征;其次,利用CLIP的文本特征作为低成本的语义信息,提出特征-语言提示微调(FLPT)方法,以进一步对齐虚拟图像特征和文本特征;原创 2025-03-11 14:51:57 · 240 阅读 · 0 评论 -
AAAI2024最佳解读|Data Distribution Distilled Generative Model for Generalized Zero-Shot Recognition
本文提出了一种名为D3GZSL的端到端生成式广义零样本学习(GZSL)框架,旨在解决传统GZSL模型偏向已知数据的问题。D3GZSL将已知数据视为分布内数据,而合成的未知数据视为分布外数据,以实现更平衡的模型。该框架包含两个核心模块:分布内双空间蒸馏(ID2SD)和分布外批次蒸馏(O2DBD)。ID2SD通过对齐教师和学生网络的输出,增强学习一致性;O2DBD则引入低维的分布外表示,捕捉已知和未知类别之间的共享结构。原创 2025-03-11 14:51:44 · 274 阅读 · 0 评论 -
AAAI2024最佳解读|Cycle-Consistency Learning for Captioning and Grounding-water-merged
本文提出了一种名为CyCo的循环一致性学习框架,旨在通过协同训练将视觉定位和图像描述这两个相互逆转的过程结合起来。该框架允许对视觉定位进行半弱监督训练,提升完全监督视觉定位的性能,并生成一个能够描述任意图像区域的通用字幕模型。大量实验表明,所提出的完全监督定位模型在性能上达到了最先进的水平,而半弱监督模型也展现出与完全监督模型相当的竞争力。此外,图像字幕模型能够自由描述图像区域,并在流行的字幕基准测试中表现出色。原创 2025-03-11 14:51:31 · 314 阅读 · 0 评论 -
AAAI2024最佳解读|CoVR Learning Composed Video Retrieval from Web Video Captions-water-merged
本文提出了一种新的组合视频检索(CoVR)方法,旨在通过同时使用图像和文本查询来检索相关视频。传统的合成图像检索(CoIR)方法通常依赖于手动标注的数据集,这在规模化时面临挑战。为了解决这一问题,作者提出了一种自动生成三元组的方法,该方法利用视频-字幕对生成图像-文本-视频三元组。通过对WebVid2M数据集的应用,作者构建了包含160万个三元组的WebVid-CoVR数据集,并引入了一个新的CoVR基准测试集。原创 2025-03-11 14:51:14 · 826 阅读 · 0 评论 -
AAAI2024最佳解读|Correlation Matching Transformation Transformers for UHD Image Restoration-water-merged
本文提出了一种名为UHDformer的通用Transformer框架,旨在解决超高清(UHD)图像恢复问题。UHDformer包含两个学习空间:高分辨率空间和低分辨率空间。高分辨率空间学习多级特征并重建残差图像,而低分辨率空间则从高分辨率特征中提取更具代表性的特征以促进更好的恢复。为改善低分辨率空间中的特征表示,本文提出了双路径相关匹配变换模块(DualCMT)和自适应通道调制器(ACM)。原创 2025-03-11 14:51:02 · 897 阅读 · 0 评论 -
AAAI2024最佳解读|Continuous Piecewise-Affine Based Motion Model for Image Animation-water-merged
本文提出了一种基于连续分段仿射(CPAB)变换的图像动画运动模型,旨在将静态图像根据驱动视频进行动画化。现有的无监督方法通常依赖于仿射和薄板样条变换,但在驱动帧与源图像之间的运动差距较大时,表现不佳。为了解决这一问题,本文引入了CPAB变换,通过将图像空间划分为小网格,利用独立的仿射变换来实现运动转移。此外,提出了SAM引导的关键点语义损失,以提高关键点提取的语义一致性,并设计了结构对齐损失以增强生成结果与驱动动作的一致性。通过在四个数据集上的广泛实验,验证了所提方法在定量和定性上的有效性。原创 2025-03-11 14:50:49 · 312 阅读 · 0 评论 -
AAAI2024最佳解读|Context-I2W Mapping Images to Context-dependent Words for Accurate Zero-Shot Composed
本文提出了一种新颖的上下文相关映射网络Context-I2W,旨在解决零样本组合图像检索(ZS-CIR)任务中的关键挑战。ZS-CIR任务要求在没有监督训练的情况下,基于参考图像和文本描述检索出视觉上相似的图像。Context-I2W通过动态学习意图视图选择器和视觉目标提取器两个模块,自适应地将描述相关的图像信息转换为伪词标记,从而提高检索的准确性。实验结果表明,该模型在多个ZS-CIR任务上表现出色,性能提升幅度在1.88%到3.60%之间,且在ZS-CIR领域取得了新的最先进结果。原创 2025-03-11 14:50:37 · 758 阅读 · 0 评论 -
AAAI2024最佳解读|Compositional Text-to-Image Synthesis with Attention Map Control of Diffusion Models
本文提出了一种新颖的组合文本到图像(T2I)合成方法,旨在解决现有扩散模型在生成图像时的语义对齐问题。尽管扩散模型在生成高质量图像方面表现出色,但它们在处理复杂的文本描述时常常出现属性泄漏、实体泄漏和缺失实体等问题。为了解决这些问题,作者提出了一种基于预测目标框的注意力掩码控制策略。该方法首先训练一个BoxNet来预测每个实体的边界框,然后根据这些框对交叉和自注意力图进行独特的掩码控制,从而确保生成的图像更符合文本提示的语义。原创 2025-03-11 14:50:22 · 641 阅读 · 0 评论 -
AAAI2024最佳解读|HISR Hybrid Implicit Surface Representation for Photorealistic 3D Human Reconstruction
本文提出了一种新的混合隐式表面表示(HISR),旨在实现逼真的三维人体重建。该方法结合了两种表面层,分别用于表示不透明和半透明区域,能够更好地捕捉人类形状的细节。通过自动分割不同区域并重建两个符号距离函数(SDF),HISR在不透明区域(如身体、面部和衣物)上进行表面渲染,而在半透明区域(如头发)上进行体积渲染。实验结果表明,HISR在3D人体重建任务中取得了最先进的结果,并在其他物体上也表现出竞争力。该方法的优势在于能够同时保持表面光滑性和高保真几何细节,克服了现有方法在处理复杂材料时的局限性。原创 2025-03-10 15:40:22 · 795 阅读 · 0 评论 -
AAAI2024最佳解读|HARDVS Revisiting Human Activity Recognition with Dynamic Vision Sensors-water-merged
本文提出了一个新的大规模基准数据集HARDVS,旨在解决基于事件的动态视觉传感器(DVS)的人类活动识别(HAR)领域中缺乏真实数据集的问题。HARDVS数据集包含超过10万个事件序列,涵盖300个日常活动类别,充分反映了现实世界中的挑战因素,如多视角、光照变化、运动速度和动态背景等。为了有效利用该数据集,本文还提出了一种新颖的时空特征学习和融合框架(ESTF),该框架通过Transformer网络对事件流进行空间和时间特征的学习与融合。原创 2025-03-10 15:40:08 · 612 阅读 · 0 评论 -
AAAI2024最佳解读|H2GFormer Horizontal-to-Global Voxel Transformer for 3D Semantic Scene Completion-water
本文提出了一种名为H2GFormer的基于Transformer的3D语义场景补全框架,旨在通过有效整合来自LiDAR或图像的输入,密集预测3D场景中每个体素的占用情况和类别。H2GFormer采用水平到全局的注意力机制,充分考虑了体素在水平方向上的变化及物体边界体素的特征。通过引入水平窗口到全局注意力模块(W2G),该框架能够有效融合语义信息,并在网络训练中使用内部-外部位置感知损失(IoE-PALoss)来强调物体过渡区域的重要性。原创 2025-03-10 15:32:02 · 317 阅读 · 0 评论 -
AAAI2024最佳解读|GMMFormer Gaussian-Mixture-Model based Transformer for Efficient Partially
本文提出了GMMFormer,一种基于高斯混合模型的Transformer,旨在高效地进行部分相关视频检索(PRVR)。PRVR任务旨在从未剪辑视频中检索与给定文本查询部分相关的片段。现有的PRVR方法通常采用显式片段建模,导致信息冗余和存储开销大。GMMFormer通过隐式建模片段表示,利用高斯混合模型约束,使每帧关注其相邻帧,从而生成包含多尺度片段信息的紧凑嵌入。此外,本文还提出了一种查询多样性损失,以区分与同一视频相关的不同文本查询,增强嵌入空间的语义信息。原创 2025-03-10 15:31:38 · 592 阅读 · 0 评论 -
AAAI2024最佳解读|Generative-based Fusion Mechanism for Multi-Modal Tracking-water-merged
本文提出了一种新颖的基于生成模型的融合机制(GMMT),旨在解决多模态跟踪中的信息融合问题。尽管生成模型(GMs)在实现全面理解方面表现出色,但其在多模态跟踪中的应用尚未得到充分探索。本文深入探讨了条件生成对抗网络(CGANs)和扩散模型(DMs)这两种生成模型技术。与传统的融合过程不同,GMMT将多模态特征与随机噪声结合,从而有效地将原始训练样本转化为更具挑战性的实例。原创 2025-03-10 15:31:24 · 335 阅读 · 0 评论 -
AAAI2024最佳解读|GCNext Towards the Unity of Graph Convolutions for Human Motion Prediction-water-merged
本文提出了GCNext,一个新颖的图卷积网络(GCN)构建范式,旨在通过通用图卷积(UniGC)实现不同图卷积类型的统一。UniGC重新概念化了现有和未探索的图卷积,将其视为特殊情况,并利用6D全局邻接矩阵编码空间、时间和通道之间的关系。GCNext能够动态选择最佳的图卷积类型,既可以从头开始训练新的GCN,也可以细化已有的GCN。实验结果表明,GCNext在Human3.6M、AMASS和3DPW数据集上实现了最先进的性能,并且计算成本比现有方法低9倍,展示了其在人体运动预测中的有效性和高效性。原创 2025-03-10 15:31:07 · 331 阅读 · 0 评论 -
AAAI2024最佳解读|Exploring Diverse Representations for Open Set Recognition-water-merged
本文探讨了开放集识别(OSR)的问题,提出了一种新的模型——多专家多样性注意力融合(MEDAF),旨在通过学习多样化的表示来提高模型在识别已知样本的同时拒绝未知样本的能力。研究表明,现有的生成模型在复杂任务中可能计算上不可行或不稳定,而判别模型在OSR中表现较差。MEDAF通过引入注意力多样性正则化项,确保多个专家的注意力图相互不同,从而学习到多样化的表示。实验结果显示,MEDAF在标准和大规模OSR基准上均超越了现有的生成模型,提升了9.5%的AUROC,并以较低的计算成本实现了新的最先进性能。原创 2025-03-10 15:30:02 · 286 阅读 · 0 评论 -
AAAI2024最佳解读|EulerMormer Robust Eulerian Motion Magnification via Dynamic Filtering within
本文提出了一种新颖的动态滤波策略EulerMormer,旨在解决视频运动放大(VMM)中的光子噪声和空间不一致性问题。VMM的目标是突破人类视觉感知的分辨率极限,揭示微小运动。然而,现有方法在运动放大过程中未能有效处理噪声,导致静态场闪烁和动态场模糊。EulerMormer基于欧拉理论,通过分离纹理和形状来提取运动表示,并引入动态滤波器以消除噪声并保留关键特征。该框架结合了Transformer架构,利用全局动态稀疏交叉协方差注意力机制和多尺度双路径门控机制,显著提高了运动放大的鲁棒性。原创 2025-03-10 15:29:41 · 341 阅读 · 0 评论 -
AAAI2024最佳解读|Enhancing Hyperspectral Images via Diffusion Model and Group-Autoencoder
本文提出了一种新颖的超光谱图像(HSI)超分辨率(SR)模型,结合了扩散模型和分组自编码器(GAE)框架。现有的HSI SR方法在捕捉复杂的谱空间关系和低级细节方面存在困难,而扩散模型在建模复杂关系和学习高低级视觉特征方面表现出色。直接将扩散模型应用于HSI SR面临模型收敛困难和推理时间过长等挑战。为此,本文提出的GAE框架将高维HSI数据编码为低维潜在空间,使扩散模型能够更有效地工作,从而显著提高了模型的训练效率和推理速度。原创 2025-03-10 15:29:25 · 299 阅读 · 0 评论 -
AAAI2024最佳解读|End-to-End Real-Time Vanishing Point Detection with Transformer-water-merged
本文提出了一种新颖的基于Transformer的端到端实时消失点检测方法,称为消失点Transformer(VPTR)。该方法通过将消失点检测视为在高斯半球上的点目标检测任务,能够直接从给定图像中回归消失点的位置。VPTR架构结合了CNN主干网络和可变形Transformer解码器,能够高效地提取多级图像特征。该方法不依赖于直线检测或曼哈顿世界假设,使其在自然和结构化场景中均表现出色。原创 2025-03-10 15:28:46 · 249 阅读 · 0 评论 -
AAAI2024最佳解读|EarthVQA Towards Queryable Earth via Relational Reasoning-Based Remote Sensing
本文提出了EarthVQA,一个多模态多任务的视觉问答(VQA)数据集,旨在通过关系推理来提升遥感图像的问答能力。EarthVQA数据集包含6000张图像、相应的语义掩码和208,593个问答对,涵盖城市和农村治理需求。为了解决现有VQA方法在复杂场景中对物体关系的忽视,本文提出了语义物体感知框架(SOBA),该框架通过分割网络生成物体语义,并利用对象引导的注意力机制进行关系建模。实验结果表明,SOBA在多个任务中优于现有的通用和遥感方法,展示了其在复杂地球视觉分析中的潜力。原创 2025-03-10 15:28:27 · 554 阅读 · 0 评论 -
AAAI2024最佳解读|DocNLC A Document Image Enhancement Framework with Normalized and Latent
本文提出了一种新的文档图像增强框架DocNLC,旨在解决由于多种退化现象导致的文档图像质量下降问题。现有的文档图像增强方法通常专注于消除单一类型的退化,而DocNLC则通过对比学习方法,考虑不同退化类型之间的关系,利用直接和潜在对比来约束内容一致性,从而实现对多种退化的统一处理。该框架通过设计潜在对比学习模块,强制不同退化类型的归一化表示显式去相关,减少冗余。实验结果表明,DocNLC在多个公开数据集的预训练和微调阶段均优于现有最先进的文档图像增强模型。此外,本文还探讨了DocNLC在下游任务中的潜在应用。原创 2025-03-10 15:28:03 · 841 阅读 · 0 评论 -
AAAI2024最佳解读|Divide and Conquer Hybrid Pre-training for Person Search-water-merged
本文提出了一种混合预训练框架,旨在解决行人搜索任务中的数据稀缺问题。行人搜索任务需要同时进行行人检测和重识别,但现有方法通常依赖于ImageNet预训练模型,导致预训练任务与行人搜索任务之间存在显著差距。为此,作者利用行人检测和重识别的子任务数据,设计了一种新的混合学习范式,并引入了任务内对齐模块(IAM)以减轻领域差异。实验结果表明,该框架在多个协议下显著提升了行人搜索的性能,尤其是在mAP指标上相较于传统的ImageNet模型有10.3%的相对提升。原创 2025-03-10 15:27:37 · 389 阅读 · 0 评论 -
AAAI2024最佳解读|Discrete Cycle-Consistency Based Unsupervised Deep Graph Matching-water-merged
本文提出了一种新的无监督深度图匹配方法,专注于图像中的关键点匹配。与传统的监督学习方法不同,该方法不依赖于真实的关键点对应关系,而是通过强制执行同一物体类别图像之间的匹配一致性来进行自监督学习。由于匹配和一致性损失是离散的,传统的导数方法无法直接应用于学习。为了解决这一问题,本文基于组合求解器的黑盒微分技术,构建了一个灵活的框架,能够与任意网络架构和组合求解器兼容。实验结果表明,该方法在无监督深度图匹配领域设定了新的最先进水平。原创 2025-03-10 15:27:21 · 244 阅读 · 0 评论 -
AAAI2024最佳解读|ICAR Image-based Complementary Auto Reasoning-water-merged
本文提出了一种新的视觉兼容性概念,旨在解决场景感知互补项检索(CIR)任务,该任务要求生成一组跨领域的兼容项目。由于主观性,数据收集和学习目标的严格标准难以建立。为此,作者提出了一种兼容性学习框架,采用类别感知的灵活双向变换器(FBT),用于视觉“基于场景的集合兼容性推理”。该框架通过自监督学习从大量场景图像中学习物体间的兼容性,并在时尚和家具领域的实验中显示出显著的性能提升。与现有方法相比,FBT模型在跨域视觉相似性输入和自回归互补项目生成方面表现出色,具有较强的泛化能力。原创 2025-03-06 20:17:06 · 335 阅读 · 0 评论