自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(164)
  • 收藏
  • 关注

原创 Neurlps2024论文解析|UniIF Unified Molecule Inverse Folding-water-merged

本文提出了UniIF,一个统一的分子逆折叠模型,旨在解决化学和生物学领域中的长期挑战。逆折叠技术在药物发现和材料科学中具有重要意义,但现有模型往往针对小分子或大分子分别设计,缺乏统一的学习过程。UniIF通过两个层面实现了模型的统一:在数据层面,提出了一种适用于所有分子的统一块图数据形式;在模型层面,引入了几何块注意力网络,以捕获所有分子的三维交互。通过在蛋白质设计、RNA设计和材料设计等多项任务上的全面评估,UniIF在所有任务中均超越了现有的最先进方法,展示了其作为通用分子逆折叠解决方案的潜力。

2025-03-11 10:53:00 624

原创 Neurlps2024论文解析|TSDS Data Selection for Task-Specific Model Finetuning-water-merged

本文提出了TSDS(特定任务数据选择)框架,旨在为特定任务的模型微调选择合适的数据。特定任务微调的有效性在很大程度上依赖于训练数据的选择。TSDS通过一个小而具有代表性的示例集来指导数据选择,将数据选择问题公式化为一个优化问题,使用基于最优传输的分布对齐损失来捕捉所选数据与目标分布之间的差异。此外,框架中还引入了正则化项以鼓励所选数据的多样性,并结合核密度估计来减少候选数据中近似重复的负面影响。

2025-03-11 10:52:23 266

原创 Neurlps2024论文解析|Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels

本文提出了一种新方法PixelCLIP,旨在解决开放词汇语义分割任务中缺乏语义标签的问题。尽管大型视觉语言模型(如CLIP)在图像级任务中表现出色,但在像素级识别任务中仍面临挑战。PixelCLIP通过利用未标记的图像和从视觉基础模型(如SAM和DINO)生成的掩码,指导模型理解物体的位置。为了解决在没有语义标签的情况下利用掩码的挑战,研究者们设计了一种在线聚类算法,使用可学习的类名来获取一般的语义概念。

2025-03-11 10:51:48 697

原创 Neurlps2024论文Toward Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixture Models

本文研究了在过参数化设置下的高斯混合模型(GMM)的梯度期望最大化(EM)算法。具体而言,考虑具有n > 1个分量的GMM从由单个真实高斯分布生成的数据中学习。尽管2高斯混合的特殊情况已有较为明确的结果,但对于任意n的全局收敛分析仍未解决,并面临多个技术障碍。为了解决这些挑战,本文构建了一种新颖的基于似然的收敛分析框架,并严格证明了梯度EM以次线性速率O(1/√t)全局收敛。这是针对超过2个分量的高斯混合模型的首次全局收敛结果。

2025-03-11 10:51:19 286

原创 Neurlps2024论文解析|The Road Less Scheduled-water-merged

本文提出了一种新的无调度学习方法,旨在解决现有学习率调度方案在优化停止时间T设定上的不足。通过完全摒弃调度方案,作者展示了该方法在多种问题(从凸问题到大型深度学习问题)上的优越性能。无调度方法不需要额外的超参数,且与标准动量优化器兼容。研究表明,该方法在多个机器学习优化算法评估中表现出色,尤其是在MLCommons 2024 AlgoPerf算法效率挑战赛中获胜,验证了其在超参数调整受限情况下的最佳性能。

2025-03-11 10:50:52 413

原创 Neurlps2024论文解析|Text-Infused Attention and Foreground-Aware Modeling for Zero-Shot Temporal Action

本文提出了一种新的零样本时间动作检测(ZSTAD)方法,旨在对未剪辑视频中的未见动作类别进行分类和定位。现有的ZSTAD方法大多采用基于前景的策略,限制了文本和视觉特征的整合。为了解决这一问题,本文引入了一种跨模态ZSTAD基线,利用互注意力机制在整个检测过程中整合文本和视觉信息。尽管该方法在性能上有所提升,但仍存在共同动作偏差问题,导致模型过度关注常见子动作。为此,本文提出了文本注入注意力和前景感知动作检测(Ti-FAD)方法,增强了模型对文本相关子动作的关注能力,并能够从背景中区分出相关的动作片段。

2025-03-11 10:50:19 739

原创 Neurlps2024论文解析|SuNeRF Validation of a 3D Global Reconstruction of the Solar Corona Using Simulated

本文提出了一种新的方法SuNeRF,旨在通过模拟的极紫外线(EUV)图像重建太阳日冕的三维结构。当前的EUV观测仪器仅能从太阳赤道(黄道)进行观测,限制了对其他视角(如太阳极点)的预测能力。为了解决这一问题,研究者们将神经辐射场(NeRF)技术应用于太阳的物理特性,展示了如何从仅限于黄道的观测中重建非黄道视角。通过在模拟的太阳EUV发射上进行训练,SuNeRF模型在重建精度上表现出色,峰值信噪比达到43.3 dB,平均绝对相对误差为0.3%。

2025-03-11 10:49:49 770

原创 Neurlps2024论文解析|Near-Optimal Streaming Heavy-Tailed Statistical Estimation with Clipped SGD

本文研究了在流式设置中进行高维重尾统计估计的问题,提出了一种基于裁剪随机梯度下降(Clipped SGD)的方法。与传统的批处理设置相比,流式设置由于内存限制而更具挑战性。研究表明,当随机梯度噪声的二阶矩有限时,Clipped SGD算法能够达到接近最优的次高斯统计速率。具体而言,使用T个样本时,Clipped SGD在平滑且强凸目标下的误差为Tr(Σ)+Tr(Σ)∥Σ∥2ln(ln(T)/δ),其中Σ为裁剪梯度的协方差。

2025-03-11 10:49:11 904

原创 Neurlps2024论文解析|Mutual Information Estimation via Normalizing Flows-water-merged

本文提出了一种基于归一化流的新方法来估计互信息(MI),通过引入一系列估计器来简化高维数据的MI估计。该方法通过将原始数据映射到目标分布,使得MI的估计变得更加容易。研究还探讨了具有已知闭式表达式的目标分布,并提供了理论保证,证明该方法能够为原始数据提供准确的MI估计。通过对高维数据的实验,展示了所提方法的实际优势,表明其在复杂数据结构下的有效性。

2025-03-11 10:48:43 410

原创 Neurlps2024论文解析Meta-Reinforcement Learning with Universal Policy Adaptation Provable Near-Optimality

本文提出了一种元强化学习(Meta-RL)框架,称为双层优化框架(BO-MRL),旨在通过一次数据收集实现任务特定策略的多步优化。该框架通过学习元先验来增强策略适应能力,并提供了任务分布上预期最优性差距的上界,量化了从学习到的元先验到特定任务最优的距离。通过实证验证,证明了所提算法在基准测试中的优越性。该研究为元强化学习提供了理论支持,尤其是在处理异构任务时,展示了其在数据效率和泛化能力方面的优势。

2025-03-11 10:48:07 424

原创 AAAI2024最佳解读|A Computation-Aware Shape Loss Function for Point Cloud Completion-water-merged

本文提出了一种计算感知的形状损失函数,旨在提高基于学习的点云补全任务的效率和准确性。点云数据在目标检测、分类和配准等关键任务中具有重要应用,但由于遮挡和传感器角度限制,LiDAR生成的点云可能无法完整描绘物体表面。为了解决这一问题,本文提出了一种基于拍卖算法的初始价格策略,减少了算法所需的迭代次数,同时确保分配结果的正确性。通过采用一系列优化策略,本文的算法在可接受的时间范围内实现了与真实EMD的最小差距,并在端到端训练中取得了最佳结果。

2025-03-11 10:40:47 393

原创 AAAI2024最佳解读|Aligning Geometric Spatial Layout in Cross-View Geo-Localization via Feature

本文提出了一种新的特征重组模块(FRM),用于跨视角地理定位任务,旨在解决地面图像与航拍图像之间的几何空间布局对齐问题。现有方法通常忽视几何空间布局的对应关系,或需要高昂的计算成本和严格的约束。FRM通过直接重组特征来对齐几何空间布局,避免了图像预处理,并且没有引入额外的计算和参数成本,从而有效减少了地面和空中图像之间的几何错位引起的歧义。此外,本文还提出了一种新颖的加权(B+1)-元组损失(WBL),作为优化目标,显著提高了收敛速度和最终性能。

2025-03-11 10:40:39 377

原创 AAAI2024最佳解读|Curvature-Invariant Adversarial Attacks for 3D Point Clouds-water-merged

本文提出了一种新的对抗攻击方法,称为曲率不变方法(CIM),旨在提高3D点云对抗攻击的不可感知性。以往的对抗攻击在3D点云识别中常常产生明显的离群点,导致不可感知性较低。CIM通过考虑点云的局部曲率,直接正则化生成对抗点云时的回传梯度,从而更好地保留原始点云的局部几何特性。具体而言,CIM将回传梯度分解为切平面和法线方向,减少沿大曲率方向的梯度,同时仅保留沿负法线方向的梯度。实验结果表明,CIM在Hausdorff距离和高斯曲率测量上分别提高了7.2%和14.5%的不可感知性,验证了其有效性和优越性。

2025-03-10 11:43:28 267 1

原创 AAAI2024最佳解读|Data-Free Hard-Label Robustness Stealing Attack-water-merged

本文提出了一种新颖的无数据硬标签鲁棒性窃取攻击(DFHL-RS),旨在通过仅查询机器学习即服务(MLaaS)提供的硬标签,窃取目标模型的准确性和鲁棒性。现有的模型窃取攻击(MSA)通常假设MLaaS能够提供软标签,并且攻击者拥有相似分布的代理数据集。然而,实际场景中,MLaaS往往只返回硬标签,且数据分布难以获取。DFHL-RS攻击通过引入高熵示例(HEE)来更好地表征分类边界,从而实现鲁棒性窃取。

2025-03-10 11:43:14 239

原创 AAAI2024最佳解读|Decomposing Semantic Shifts for Composed Image Retrieval-water-merged

本文提出了一种新的组合图像检索方法,称为语义偏移网络(SSN),旨在通过将用户提供的参考图像和文本指令进行有效的图像检索。现有方法通常将文本视为描述,忽略了文本的结构和用户的意图。为了解决这一问题,SSN将语义漂移分解为两个步骤:从参考图像到视觉原型,再从视觉原型到目标图像。具体而言,SSN通过降级和升级两个部分来实现这一过程,降级用于从参考图像生成视觉原型,而升级则用于将视觉原型转化为最终的目标图像表示。

2025-03-10 11:43:03 666

原创 AAAI2024最佳解读|Deep Semantic Graph Transformer for Multi-View 3D Human Pose Estimation-water-merged

本文提出了一种基于深度语义图Transformer的多视角3D人体姿态估计(HPE)框架,旨在解决现有单视角HPE方法中存在的深度歧义、特征表示不足和感受野有限等问题。该框架通过深度语义图Transformer编码器,动态学习和融合多视角的人体节点显著语义特征,从而提高3D HPE性能。具体而言,研究者们首先提出了一个深度语义图Transformer编码器,以丰富空间特征信息,深入挖掘关节的位置、空间结构和骨骼边缘知识,并动态学习它们之间的相关性。

2025-03-10 11:42:46 894

原创 AAAI2024最佳解读|DGL Dynamic Global-Local Prompt Tuning for Text-Video Retrieval-water-merged

本文提出了一种新的跨模态动态提示微调方法DGL,旨在解决文本-视频检索中的两个主要问题:一是现有视觉编码器仅能提取帧级特征,无法获取全局视频信息;二是视觉和文本编码器使用独立提示未能有效缩小视觉-文本模态间的差距。DGL通过共享潜在空间生成局部级文本和帧提示,促进跨模态交互,并采用全局-局部注意力机制来捕获视频的全局信息。

2025-03-10 11:42:35 232

原创 AAAI2024最佳解读|DiffRAW Leveraging Diffusion Model to Generate DSLR-Comparable Perceptual Quality

本文提出了一种新颖的方法DiffRAW,首次将扩散模型应用于从智能手机RAW图像生成与数码单反相机(DSLR)相媲美的sRGB图像。由于RAW-sRGB数据对之间存在明显的细节差异、颜色映射不稳定和空间错位,DiffRAW通过学习RAW到sRGB的映射,有效地增强了输出图像的细节。该方法利用RAW图像作为扩散条件,保持图像的结构信息,同时嵌入颜色位置保持条件以减轻训练数据对中的颜色和空间错位干扰。DiffRAW还设计了一种域变换扩散方法,以加速推理过程,减少所需的推理步骤。

2025-03-10 11:42:25 689

原创 AAAI2024最佳解读|DiffusionEdge Diffusion Probabilistic Model for Crisp Edge Detection-water-merged

本文提出了一种名为DiffusionEdge的扩散概率模型,旨在解决传统边缘检测方法在准确性和清晰度上的不足。现有的基于学习的边缘检测器通常受限于编码器-解码器架构,难以同时生成正确且清晰的边缘图。DiffusionEdge通过在潜在空间中应用扩散概率模型,结合不确定性感知的交叉熵损失,优化边缘检测过程。该模型采用解耦架构加速去噪过程,并引入自适应傅里叶滤波器以调整特定频率的潜在特征。

2025-03-10 11:42:14 753

原创 AAAI2024最佳解读|Discretization-Induced Dirichlet Posterior for Robust Uncertainty Quantification on

本文提出了一种新的不确定性量化方法,旨在提高深度神经网络(DNN)在回归任务中的鲁棒性。通过引入辅助不确定性估计器(AuxUE),该方法能够在不修改主任务模型的情况下,提供对主任务预测的不确定性估计。研究中提出了一种名为离散化诱导狄利克雷后验(DIDO)的新策略,用于建模离散化预测误差的狄利克雷后验,从而有效地估计认知不确定性。通过在年龄估计、单目深度估计和超分辨率任务上的广泛实验,结果表明该方法在面对噪声输入时能够提供稳健的不确定性估计,并且具有良好的可扩展性,适用于图像级和像素级任务。

2025-03-10 11:42:04 556

原创 AAAI2024最佳解读|Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model Adaptation

本文提出了一种新方法,旨在根据自然音频样本生成多样化且逼真的视频。生成的视频在全局和时间上与输入音频保持一致:全局上,输入音频与整个输出视频在语义上相关联;时间上,输入音频的每个片段与视频的相应片段相关联。该方法利用现有的文本条件视频生成模型和预训练的音频编码器模型,基于轻量级适配器网络,将音频表示映射到文本到视频生成模型所需的输入表示。通过在三个数据集上进行广泛验证,结果表明该方法生成的视频在内容和时间轴上与输入音频更好地对齐,并且在视觉质量和多样性方面表现优异。

2025-03-10 11:37:19 330

原创 AAAI2024最佳解读|Diverse and Stable 2D Diffusion Guided Text to 3D Generation with Noise Recalibration

本文提出了一种名为噪声重校准算法(NR-SDS)的新方法,旨在解决文本引导的三维生成中的两个主要问题:多样性问题和退化问题。现有的SDS损失在生成多样化内容时表现不佳,并且在训练过程中可能导致生成内容的过拟合和崩溃。NR-SDS算法通过引入单噪声训练和噪声重校准损失,显著提高了生成的3D内容的多样性和细节质量。实验结果表明,NR-SDS算法在生成高质量、多视角一致的3D对象方面表现优异,克服了传统方法的局限性。

2025-03-10 11:37:08 224

原创 AAAI2024最佳解读|DME Unveiling the Bias for Better Generalized Monocular Depth Estimation

本文旨在设计具有更好泛化能力的单目深度估计模型。通过定量分析,研究者发现了两个重要见解:首先,单目深度估计中存在与长尾分类问题相似的模拟相关性现象,表明训练数据中不平衡的深度分布可能导致泛化能力有限;其次,深度值的非平衡和长尾分布不仅存在于数据集规模上,也在每张图像内部表现出来,进一步加剧了单目深度估计的挑战。为此,本文提出了距离感知多专家(DME)深度估计模型,采用分而治之的策略,使每个专家负责特定深度范围的估计,从而提高了深度分布的均匀性和预测的准确性。

2025-03-10 11:36:52 385

原创 AAAI2024最佳解读|DOCTR Disentangled Object-Centric Transformer for Point Scene Understanding

本文提出了一种新颖的解耦目标中心Transformer(DOCTR),旨在解决点云场景理解中的多个子任务,包括物体分割、姿态估计和网格重建。传统方法通常先分割物体,然后独立处理每个物体,导致复杂的优化管道,难以利用多个物体之间的关系约束。DOCTR通过将每个物体表示为查询,并采用Transformer解码器迭代优化所有查询,探索物体中心表示以促进多物体的学习。特别地,本文引入了语义-几何解耦查询(SGDQ)设计,使查询特征能够分别关注与相应子任务相关的语义和几何信息。

2025-03-10 11:35:47 512

原创 AAAI2024最佳解读|Dynamic Feature Pruning and Consolidation for Occluded Person Re-Identification

本文提出了一种特征剪枝与整合(FPC)框架,旨在解决遮挡行人重识别(ReID)中的挑战。现有方法通常依赖于先验知识线索(如人体关键点和语义分割),在严重遮挡情况下容易失效。FPC框架通过稀疏编码器去除与背景噪声和遮挡物相关的不重要图像标记,保留重要特征。匹配阶段利用保留的标记识别图库中的k近邻,最后通过特征整合模块补偿修剪后的特征。实验结果表明,FPC在多个遮挡、部分和整体ReID数据集上表现优异,特别是在Occluded-Duke数据集上,mAP和Rank-1准确率分别提高了至少8.6%和6.0%。

2025-03-10 11:35:36 287

原创 AAAI2024最佳解读|Efficient Conditional Diffusion Model with Probability Flow Sampling for Image

本文提出了一种高效的条件扩散模型(ECDP),用于图像超分辨率。图像超分辨率是一个本质上病态的问题,因为对于一张低分辨率图像,可能存在多个有效的高分辨率图像。现有的基于扩散概率模型的超分辨率方法由于迭代采样导致时间消耗较高,且生成图像的质量和一致性不理想。ECDP通过设计一个连续时间条件扩散模型,利用概率流采样实现高效生成,并提出了一种混合参数化方法以提高生成图像的一致性。此外,本文还引入了一种图像质量损失函数,进一步提升超分辨率的质量。

2025-03-10 11:35:25 382

原创 AAAI2024最佳解读|MM-Point Multi-View Information-Enhanced Multi-Modal Self-Supervised

本文提出了一种新颖的自监督点云表示学习方法MM-Point,旨在通过多视角二维信息增强三维点云理解。MM-Point利用模内和模间相似性目标,促进三维物体与多个二维视图之间的多模态交互与传输。为有效执行基于对比学习的跨模态一致性目标,本文进一步提出了多层感知机(Multi-MLP)和多级增强策略。

2025-03-10 11:35:13 292

原创 AAAI2024最佳解读|Learning Dense Correspondence for NeRF-Based Face Reenactment-water-merged

本文提出了一种新颖的框架,旨在实现基于神经辐射场(NeRF)的人脸重演,特别是在没有3D参数模型先验的情况下学习不同人脸表示之间的稠密对应关系。该框架采用三平面作为基本的NeRF表示,并将其分解为规范三平面、身份变形和运动三个部分。通过引入平面字典(PlaneDict)模块,本文有效地将运动条件映射到可学习的正交平面基的线性加权和。实验结果表明,该方法在细粒度运动控制和身份保留方面优于现有技术,能够实现一次性多视角的人脸重演。

2025-03-07 14:27:11 389

原创 AAAI2024最佳解读|Hyperspectral Image Reconstruction via Combinatorial Embedding of Cross-Channel

本文提出了一种新颖的高光谱图像重建框架CESST,该框架通过组合方式挖掘RGB输入通道之间的独特互补信息,以有效嵌入时空光谱线索。CESST利用Transformer结构,首先在高维嵌入空间中充分挖掘通道内的时空光谱特征,然后进行跨通道融合。该方法通过引入光谱融合注意力模块和时空注意力块,显著提高了特征的利用率和交互性。实验结果表明,CESST在多个基准数据集上实现了最先进的性能,尤其在长波长波段的重建效果上表现优异。

2025-03-07 14:26:56 394

原创 AAAI2024最佳解读|HyperEditor Achieving Both Authenticity and Cross-Domain Capability in Image

本文提出了一种名为HyperEditor的创新图像编辑方法,旨在同时实现真实的图像属性编辑和跨域风格迁移。传统的图像编辑方法通常依赖于潜在代码的操作,但这限制了编辑结果的多样性。HyperEditor通过利用超网络生成的权重因子,重新分配预训练StyleGAN2生成器的权重,从而实现更精确的图像重建和属性编辑。该方法引入了自适应层选择器,使超网络能够自主识别需要输出权重因子的层,进一步提高了效率。实验结果表明,HyperEditor在多个具有挑战性的数据集上表现出色,成功实现了多样化的图像编辑任务。

2025-03-07 14:26:45 883

原创 AAAI2024最佳解读|Hybrid-SORT Weak Cues Matter for Online Multi-Object Tracking-water-merged

本文提出了一种新的在线多目标跟踪方法Hybrid-SORT,旨在解决多目标跟踪中由于目标遮挡和聚类导致的强线索失效问题。传统方法主要依赖空间和外观信息等强线索进行目标检测和关联,但在复杂场景中,这些线索的有效性会显著下降。为此,Hybrid-SORT引入了弱线索(如置信度状态和高度状态)来补偿强线索的不足。通过简单有效的轨迹置信度建模(TCM)和高度调制IoU(HMIoU),该方法在多个基准测试(如MOT17、MOT20和DanceTrack)中表现出色,显示出强大的泛化能力和实时性能。

2025-03-07 14:26:34 633

原创 AAAI2024最佳解读|HR-Pro Point-supervised Temporal Action Localization via Hierarchical Reliability

本文提出了一种新的框架HR-Pro,旨在通过层次可靠性传播实现点监督时间动作定位(PSTAL)。当前的PSTAL方法主要集中在片段级或实例级的网络优化,忽视了点标注在这两个层级的内在可靠性。HR-Pro框架包含两个可靠性感知阶段:片段级判别学习和实例级完整性学习,旨在有效传播高置信度的线索。片段级学习中,HR-Pro引入了在线更新的记忆模块来存储每个类别的可靠片段原型,并利用可靠性感知注意力块捕获片段间的依赖关系,从而提高片段表示的辨别力和鲁棒性。

2025-03-07 14:26:21 479

原创 AAAI2024最佳解读|High-Quality Real-Time Rendering Using Subpixel Sampling Reconstruction

本文提出了一种新颖的蒙特卡罗采样策略,称为亚像素采样,旨在加速高分辨率图像的生成过程,并结合相应的降噪方法——亚像素采样重建(SSR),以实现高质量图像的实时渲染。通过将每帧划分为不重叠的2×2瓦片,亚像素采样策略仅计算每个瓦片的一个光线追踪像素,从而显著减少了渲染时间。实验结果表明,该方法在降噪质量上显著优于现有技术,并能够在2K分辨率下实现130帧每秒的实时重建性能。此外,本文还构建了一个逼真的合成数据集,并计划将其及相关代码发布以供研究使用。

2025-03-07 14:26:07 406

原创 AAAI2024最佳解读|HEAP Unsupervised Object Discovery and Localization with Contrastive Grouping-

本文提出了一种名为HEAP(基于对比分组的层次合并框架)的新方法,旨在解决无监督目标发现与定位的问题。HEAP通过利用自监督特征,采用交叉注意力机制将图像内的补丁自适应地分组为语义一致的区域。该方法引入了区域级和图像级的对比损失,以确保不同区域之间的可区分性,并有效地将前景与背景分开。HEAP的设计使得图像可以高效地分解为多个层次的表示,从而提高了目标发现的准确性。实验结果表明,HEAP在语义分割检索、无监督目标发现和显著性检测任务中均达到了最先进的性能。

2025-03-07 14:25:41 323

原创 AAAI2024最佳解读|GSDD Generative Space Dataset Distillation for Image Super-resolution-water-merged

本文提出了一种名为GSDD的创新方法,旨在通过数据集蒸馏(Dataset Distillation, DD)技术来解决单图像超分辨率(Single Image Super-Resolution, SISR)问题。传统的SISR方法依赖大量低分辨率(LR)和高分辨率(HR)图像对进行训练,这不仅降低了训练效率,还增加了数据存储的负担。GSDD通过利用预训练的生成对抗网络(GAN)来优化和合成紧凑的数据集,从而在保持信息丰富性的同时显著减少数据量。

2025-03-07 14:25:14 673

原创 AAAI2024最佳解读|Gaze Target Detection by Merging Human Attention and Activity Cues-water-merged

本文提出了一种创新的方法,通过将视觉显著性检测与人体部位和物体交互相结合,来解决复杂图像背景中的凝视目标检测问题。现有方法主要依赖于视觉显著性和空间场景几何,尽管在性能上取得了显著进展,但在复杂背景下的目标检测仍面临挑战。本文的方法通过融合人类注意力和活动线索,能够在复杂背景中实现更精确的凝视目标检测。实验结果表明,该方法在Gazefollow和GazeVideoAttn基准上均达到了最先进的性能,且在所有评估指标上均优于依赖于复杂3D重建的现有方法,接近人类水平的表现。

2025-03-07 14:25:01 300

原创 AAAI2024最佳解读|Full-Body Motion Reconstruction with Sparse Sensing from Graph Perspective-water-merged

本文提出了一种基于图视角的全身运动重建框架,旨在从稀疏传感器数据中生成逼真的全身运动。传统的虚拟现实(VR)系统通常只能捕捉上半身的运动,导致下半身运动重建的困难。为了解决这一问题,作者引入了肢体姿态图(BPG)来表示人体,并将运动重建任务转化为预测图中缺失节点的问题。通过结合时间金字塔结构和图神经网络,本文的方法能够有效地捕捉关节之间的动态关系,尤其在下半身运动的重建上表现出色。实验结果表明,该框架在全身化身估计方面达到了最先进的性能,验证了各个模块的有效性。

2025-03-07 14:24:45 307

原创 AAAI2024最佳解读|FoSp Focus and Separation Network for Early Smoke Segmentation-water-merged

本文提出了一种名为FoSp的聚焦和分离网络,用于早期烟雾分割(ESS),旨在提高烟雾源的准确识别,从而促进快速灭火和防止大规模气体泄漏。由于早期烟雾的透明性和小规模,ESS面临比传统烟雾分割更大的挑战,导致漏检率高和精度低。FoSp通过引入聚焦模块和分离模块,分别降低漏检率和提高分割精度。聚焦模块利用双向级联引导低分辨率和高分辨率特征,确定烟雾范围;分离模块则将烟雾图像分离为纯烟雾前景和无烟背景,增强对比度。

2025-03-07 14:24:30 637

原创 AAAI2024最佳解读|FontDiffuser One-Shot Font Generation via Denoising Diffusion with Multi-Scal

本文提出了一种名为FontDiffuser的基于扩散的单次字体生成方法,旨在通过去噪扩散模型生成模仿参考图像风格的字体,同时保留源图像的内容。尽管现有的字体生成方法在性能上取得了一定的进展,但在处理复杂字符和大风格变化时仍面临挑战。FontDiffuser通过引入多尺度内容聚合(MCA)模块,有效结合不同尺度的全局和局部内容线索,从而增强复杂字符的笔画保留能力。此外,文章还提出了一种风格对比细化(SCR)模块,用于风格表示学习,利用风格提取器从图像中分离风格,并通过精心设计的风格对比损失来监督扩散模型。

2025-03-07 14:23:47 669

原创 AAAI2024最佳解读|FaceRSA RSA-Aware Facial Identity Cryptography Framework-water-merged

随着互联网的发展,分享个人照片和使用计算机视觉技术处理人脸已成为日常行为。然而,身份隐私的担忧也随之而来。传统的匿名化方法往往会影响图像的质量和可用性,或无法提供完整的密码学特性。本文提出了FaceRSA,这是第一个具有与RSA相似完整特性的面部身份密码框架。该框架利用StyleGAN的生成能力,实现百万像素级的人脸身份匿名化和去匿名化。通过在潜空间中进行身份加密和解密,FaceRSA确保了身份无关属性的保留,并引入了三种损失函数以满足RSA的特性。

2025-03-07 14:23:35 219

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除