
文献阅读
文章平均质量分 82
haimianxiaobao11
这个作者很懒,什么都没留下…
展开
-
文献翻译不再愁!4款高效工具推荐,轻松应对学术翻译
在学术研究过程中,翻译外文文献常常是一大难题。今天为大家推荐 4 款超实用的学术翻译软件,无论是机翻需求,还是对专业词汇准确性的要求,它们都能满足。原创 2025-04-27 20:10:47 · 714 阅读 · 0 评论 -
Neurlps2024论文解析|UniIF Unified Molecule Inverse Folding-water-merged
本文提出了UniIF,一个统一的分子逆折叠模型,旨在解决化学和生物学领域中的长期挑战。逆折叠技术在药物发现和材料科学中具有重要意义,但现有模型往往针对小分子或大分子分别设计,缺乏统一的学习过程。UniIF通过两个层面实现了模型的统一:在数据层面,提出了一种适用于所有分子的统一块图数据形式;在模型层面,引入了几何块注意力网络,以捕获所有分子的三维交互。通过在蛋白质设计、RNA设计和材料设计等多项任务上的全面评估,UniIF在所有任务中均超越了现有的最先进方法,展示了其作为通用分子逆折叠解决方案的潜力。原创 2025-03-11 10:53:00 · 653 阅读 · 0 评论 -
Neurlps2024论文解析|TSDS Data Selection for Task-Specific Model Finetuning-water-merged
本文提出了TSDS(特定任务数据选择)框架,旨在为特定任务的模型微调选择合适的数据。特定任务微调的有效性在很大程度上依赖于训练数据的选择。TSDS通过一个小而具有代表性的示例集来指导数据选择,将数据选择问题公式化为一个优化问题,使用基于最优传输的分布对齐损失来捕捉所选数据与目标分布之间的差异。此外,框架中还引入了正则化项以鼓励所选数据的多样性,并结合核密度估计来减少候选数据中近似重复的负面影响。原创 2025-03-11 10:52:23 · 304 阅读 · 0 评论 -
Neurlps2024论文解析|Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels
本文提出了一种新方法PixelCLIP,旨在解决开放词汇语义分割任务中缺乏语义标签的问题。尽管大型视觉语言模型(如CLIP)在图像级任务中表现出色,但在像素级识别任务中仍面临挑战。PixelCLIP通过利用未标记的图像和从视觉基础模型(如SAM和DINO)生成的掩码,指导模型理解物体的位置。为了解决在没有语义标签的情况下利用掩码的挑战,研究者们设计了一种在线聚类算法,使用可学习的类名来获取一般的语义概念。原创 2025-03-11 10:51:48 · 742 阅读 · 0 评论 -
Neurlps2024论文Toward Global Convergence of Gradient EM for Over-Parameterized Gaussian Mixture Models
本文研究了在过参数化设置下的高斯混合模型(GMM)的梯度期望最大化(EM)算法。具体而言,考虑具有n > 1个分量的GMM从由单个真实高斯分布生成的数据中学习。尽管2高斯混合的特殊情况已有较为明确的结果,但对于任意n的全局收敛分析仍未解决,并面临多个技术障碍。为了解决这些挑战,本文构建了一种新颖的基于似然的收敛分析框架,并严格证明了梯度EM以次线性速率O(1/√t)全局收敛。这是针对超过2个分量的高斯混合模型的首次全局收敛结果。原创 2025-03-11 10:51:19 · 328 阅读 · 0 评论 -
Neurlps2024论文解析|The Road Less Scheduled-water-merged
本文提出了一种新的无调度学习方法,旨在解决现有学习率调度方案在优化停止时间T设定上的不足。通过完全摒弃调度方案,作者展示了该方法在多种问题(从凸问题到大型深度学习问题)上的优越性能。无调度方法不需要额外的超参数,且与标准动量优化器兼容。研究表明,该方法在多个机器学习优化算法评估中表现出色,尤其是在MLCommons 2024 AlgoPerf算法效率挑战赛中获胜,验证了其在超参数调整受限情况下的最佳性能。原创 2025-03-11 10:50:52 · 450 阅读 · 0 评论 -
Neurlps2024论文解析|Text-Infused Attention and Foreground-Aware Modeling for Zero-Shot Temporal Action
本文提出了一种新的零样本时间动作检测(ZSTAD)方法,旨在对未剪辑视频中的未见动作类别进行分类和定位。现有的ZSTAD方法大多采用基于前景的策略,限制了文本和视觉特征的整合。为了解决这一问题,本文引入了一种跨模态ZSTAD基线,利用互注意力机制在整个检测过程中整合文本和视觉信息。尽管该方法在性能上有所提升,但仍存在共同动作偏差问题,导致模型过度关注常见子动作。为此,本文提出了文本注入注意力和前景感知动作检测(Ti-FAD)方法,增强了模型对文本相关子动作的关注能力,并能够从背景中区分出相关的动作片段。原创 2025-03-11 10:50:19 · 760 阅读 · 0 评论 -
Neurlps2024论文解析|SuNeRF Validation of a 3D Global Reconstruction of the Solar Corona Using Simulated
本文提出了一种新的方法SuNeRF,旨在通过模拟的极紫外线(EUV)图像重建太阳日冕的三维结构。当前的EUV观测仪器仅能从太阳赤道(黄道)进行观测,限制了对其他视角(如太阳极点)的预测能力。为了解决这一问题,研究者们将神经辐射场(NeRF)技术应用于太阳的物理特性,展示了如何从仅限于黄道的观测中重建非黄道视角。通过在模拟的太阳EUV发射上进行训练,SuNeRF模型在重建精度上表现出色,峰值信噪比达到43.3 dB,平均绝对相对误差为0.3%。原创 2025-03-11 10:49:49 · 785 阅读 · 0 评论 -
Neurlps2024论文解析|Near-Optimal Streaming Heavy-Tailed Statistical Estimation with Clipped SGD
本文研究了在流式设置中进行高维重尾统计估计的问题,提出了一种基于裁剪随机梯度下降(Clipped SGD)的方法。与传统的批处理设置相比,流式设置由于内存限制而更具挑战性。研究表明,当随机梯度噪声的二阶矩有限时,Clipped SGD算法能够达到接近最优的次高斯统计速率。具体而言,使用T个样本时,Clipped SGD在平滑且强凸目标下的误差为Tr(Σ)+Tr(Σ)∥Σ∥2ln(ln(T)/δ),其中Σ为裁剪梯度的协方差。原创 2025-03-11 10:49:11 · 922 阅读 · 0 评论 -
Neurlps2024论文解析|Mutual Information Estimation via Normalizing Flows-water-merged
本文提出了一种基于归一化流的新方法来估计互信息(MI),通过引入一系列估计器来简化高维数据的MI估计。该方法通过将原始数据映射到目标分布,使得MI的估计变得更加容易。研究还探讨了具有已知闭式表达式的目标分布,并提供了理论保证,证明该方法能够为原始数据提供准确的MI估计。通过对高维数据的实验,展示了所提方法的实际优势,表明其在复杂数据结构下的有效性。原创 2025-03-11 10:48:43 · 428 阅读 · 0 评论 -
Neurlps2024论文解析Meta-Reinforcement Learning with Universal Policy Adaptation Provable Near-Optimality
本文提出了一种元强化学习(Meta-RL)框架,称为双层优化框架(BO-MRL),旨在通过一次数据收集实现任务特定策略的多步优化。该框架通过学习元先验来增强策略适应能力,并提供了任务分布上预期最优性差距的上界,量化了从学习到的元先验到特定任务最优的距离。通过实证验证,证明了所提算法在基准测试中的优越性。该研究为元强化学习提供了理论支持,尤其是在处理异构任务时,展示了其在数据效率和泛化能力方面的优势。原创 2025-03-11 10:48:07 · 451 阅读 · 0 评论 -
AAAI2024最佳解读|Aligning Geometric Spatial Layout in Cross-View Geo-Localization via Feature
本文提出了一种新的特征重组模块(FRM),用于跨视角地理定位任务,旨在解决地面图像与航拍图像之间的几何空间布局对齐问题。现有方法通常忽视几何空间布局的对应关系,或需要高昂的计算成本和严格的约束。FRM通过直接重组特征来对齐几何空间布局,避免了图像预处理,并且没有引入额外的计算和参数成本,从而有效减少了地面和空中图像之间的几何错位引起的歧义。此外,本文还提出了一种新颖的加权(B+1)-元组损失(WBL),作为优化目标,显著提高了收敛速度和最终性能。原创 2025-03-11 10:40:39 · 419 阅读 · 0 评论 -
AAAI2024最佳解读|GSDD Generative Space Dataset Distillation for Image Super-resolution-water-merged
本文提出了一种名为GSDD的创新方法,旨在通过数据集蒸馏(Dataset Distillation, DD)技术来解决单图像超分辨率(Single Image Super-Resolution, SISR)问题。传统的SISR方法依赖大量低分辨率(LR)和高分辨率(HR)图像对进行训练,这不仅降低了训练效率,还增加了数据存储的负担。GSDD通过利用预训练的生成对抗网络(GAN)来优化和合成紧凑的数据集,从而在保持信息丰富性的同时显著减少数据量。原创 2025-03-07 14:25:14 · 693 阅读 · 0 评论 -
AAAI2024最佳解读|Efficient Look-Up Table from Expanded Convolutional Network for Accelerating
本文提出了一种高效的扩展卷积(EC)层,旨在通过扩大常规卷积的输出大小来间接增加感受野(RF),以提高图像超分辨率(SR)任务的速度和性能。尽管现有的查找表(LUT)方法在超分辨率任务中表现出色,但大多数方法未能满足低计算边缘设备对高速SR的需求。通过引入EC层,多个LUT被合并为一个,从而在保持SR性能的同时实现更快的运行速度。实验结果表明,所提出的方法在推理速度上显著优于其他基于LUT的SR方法,同时在图像质量上保持了相当的性能。原创 2025-03-07 14:23:07 · 422 阅读 · 0 评论 -
AAAI2024最佳解读|Neighborhood-Enhanced 3D Human Pose Estimation with Monocular LiDAR in Long-Range
本文提出了一种基于单目激光雷达的邻域增强三维人体姿态估计方法,旨在解决在大规模户外场景中进行准确的三维人体姿态估计(3HPE)所面临的挑战。现有的激光雷达方法主要依赖于从单个点云中恢复三维姿态,未能充分利用邻域中的连贯性线索。本文通过引入背景中的三维邻居(3BN)和三维扫描邻居(3SN)来增强空间和纹理一致性线索,从而提高3HPE的性能。我们提出的CoherenceFuse模块有效整合了这些线索,建立了一致的时间关系。原创 2025-03-06 20:24:21 · 764 阅读 · 0 评论 -
AAAI2024最佳解读|Negative Pre-aware for Noisy Cross-modal Matching
本文提出了一种新颖的负样本预感知跨模态(NPC)匹配解决方案,旨在解决跨模态噪声鲁棒学习中的挑战。现有方法在处理噪声对应关系时,往往无法保持稳定的性能,尤其是在噪声增加的情况下。NPC方法通过两个方面进行改进:首先,针对噪声识别和抵抗,NPC通过估计每个样本的负面影响来调整其在训练过程中的贡献,而不是简单地过滤噪声子集。其次,为了在噪声增加的情况下保持稳定性能,NPC利用深度神经网络的记忆效应,维护一个记忆库,选择高置信度的干净样本作为记忆条目。原创 2025-03-06 20:24:11 · 232 阅读 · 0 评论 -
AAAI2024最佳解读|Multi-View People Detection in Large Scenes via Supervised View-Wise Contribution
本文提出了一种新的多视角行人检测方法,旨在解决当前基于深度学习的多视角行人检测(MVD)方法在大型复杂场景中的局限性。现有方法主要在小型场景上进行训练和评估,导致其在处理严重遮挡和相机标定误差时的效果不佳。为此,本文开发了一种监督视角贡献加权方法,通过更好地融合多摄像头信息来提高检测性能。此外,采用大型合成数据集以增强模型的泛化能力,并通过简单的域适应技术进一步提升模型在新测试场景上的表现。实验结果表明,所提出的方法在跨场景多视角行人检测中表现出色,具有良好的实用性。原创 2025-03-06 20:24:01 · 736 阅读 · 0 评论 -
AAAI2024最佳解读|Multi-Prompts Learning with Cross-Modal Alignment for Attribute-based Person Re-
本文提出了一种新的框架,称为多提示重识别(MP-ReID),旨在通过利用生成的细粒度属性描述来提高行人重识别(ReID)任务的准确性。现有的ReID算法通常未能有效利用丰富的上下文信息,主要依赖于简单的粗粒度属性。MP-ReID通过结合显式和隐式提示,利用大型语言模型(如ChatGPT和VQA)生成多样化的信息丰富的句子,以辅助ReID任务。该框架包括多提示生成、跨模态对齐和行人检索三个主要组件。原创 2025-03-06 20:23:51 · 691 阅读 · 0 评论 -
AAAI2024最佳解读|Multi-Modal Prompting for Open-Vocabulary Video Visual Relationship Detection
本文提出了一种多模态提示方法,旨在解决开放词汇视频视觉关系检测(Open-VidVRD)中的挑战。该方法通过对视觉表示和语言输入进行提示微调,适应了CLIP模型,以便在视频中检测未见过的物体关系。具体而言,研究者们通过时空视觉提示增强了CLIP的图像编码器,使其能够捕捉时空上下文,从而适合于视频中的对象级关系表示。此外,提出的视觉引导语言提示利用CLIP的语义知识来发现未见过的关系类别。原创 2025-03-06 20:23:42 · 780 阅读 · 0 评论 -
AAAI2024最佳解读|Motion Deblurring via Spatial-Temporal Collaboration of Frames and Event
本文提出了一种新颖的时空协作网络(STCNet),用于基于事件的运动去模糊。通过利用事件相机捕获的高时间分辨率运动信息,STCNet克服了现有方法在空间融合中的模态冗余和事件与帧之间的时间协作不足的问题。该网络首先通过差分模态引导的跨模态校准策略增强互补性,随后利用跨模态共注意机制实现双模态空间融合。此外,STCNet还引入了帧-事件相互时空注意力机制,以更好地建模跨时间依赖关系。大量实验表明,STCNet在合成和真实数据集上均达到了最先进的去模糊性能,展示了其在运动去模糊任务中的有效性。原创 2025-03-06 20:23:29 · 390 阅读 · 0 评论 -
AAAI2024最佳解读|Mono3DVG 3D Visual Grounding in Monocular Images
本文提出了一种新颖的任务,即在单目RGB图像中使用包含外观和几何信息的语言描述进行3D视觉接地。为此,研究者构建了一个大型数据集Mono3DRefer,包含41,140个自然语言表达,涵盖8,228个对象及其对应的几何文本描述,这些描述由ChatGPT生成并经过人工细化。为促进这一任务,提出了Mono3DVG-TR,一个基于端到端的Transformer网络,利用文本嵌入中的外观和几何信息进行多模态学习和3D物体定位。原创 2025-03-06 20:23:20 · 710 阅读 · 0 评论 -
AAAI2024最佳解读|MobileInst Video Instance Segmentation on the Mobile
本文提出了MobileInst,一个轻量级且适用于移动设备的视频实例分割框架。该框架旨在解决移动设备上逐帧像素级实例感知的高计算和内存成本,以及复杂的目标跟踪启发式方法。MobileInst采用移动视觉转换器提取多级语义特征,并引入高效的基于查询的双转换器实例解码器和语义增强掩码解码器来生成每帧的实例分割。此外,MobileInst通过简单有效的内核重用和内核关联方法来跟踪视频中的对象。原创 2025-03-06 20:23:11 · 371 阅读 · 0 评论 -
AAAI2024最佳解读|MGQFormer Mask-Guided Query-Based Transformer for Image Manipulation Localization
本文提出了一种新的框架MGQFormer,旨在提高图像篡改定位的效率。传统的深度学习模型在图像篡改定位中取得了一定进展,但由于主要依赖交叉熵损失,导致训练效率低下,忽视了篡改区域的空间位置和形状细节。MGQFormer通过引入掩码引导查询令牌(GQT)来指导可学习查询令牌(LQT),从而更有效地识别伪造区域。该框架通过掩码引导损失来减少GQT和LQT之间的特征距离,显著提高了模型的收敛速度和定位精度。原创 2025-03-06 20:23:00 · 264 阅读 · 0 评论 -
AAAI2024最佳解读|M2Doc A Multi-Modal Fusion Approach for Document Layout Analysi
本文提出了一种名为M2Doc的多模态融合方法,旨在改善文档布局分析(DLA)的性能。现有的DLA方法往往侧重于视觉特征,忽视了文本特征,导致在复杂布局分析数据集上的表现不佳。M2Doc通过融合视觉和文本特征,采用可插拔的早期融合和后期融合模块,在像素级和块级对齐视觉与文本特征。实验结果表明,M2Doc显著提高了多种检测器的性能,包括在DocLayNet和M6Doc数据集上分别提高了11.3 mAP和1.9 mAP。原创 2025-03-06 20:22:49 · 917 阅读 · 0 评论 -
AAAI2024最佳解读|Learning Task-Aware Language-Image Representation for Class-Incremental
本文提出了一种面向类别增量目标检测(CIOD)的新方法,旨在解决目标检测器在学习新任务时的灾难性遗忘问题。传统的CIOD方法通常依赖于纯视觉主干,忽视了文本线索的强大表示能力。为此,本文引入了一种任务感知的语言-图像表示方法,通过在训练阶段采用隔离策略学习不同任务的语言-图像表示,并在推理阶段利用任务特定的对齐分数。实验结果表明,该方法在COCO 2017和Pascal VOC 2007数据集上实现了最先进的性能,显著提高了CIOD的效果,尤其是在处理背景-前景冲突时表现出色。原创 2025-03-06 20:22:37 · 576 阅读 · 0 评论 -
AAAI2024最佳解读|KeDuSR Real-World Dual-Lens Super-Resolution via Kernel-Free Matching
本文提出了一种新的双镜头超分辨率(SR)方法KeDuSR,旨在通过无核匹配策略解决低分辨率广角图像(LR)与高分辨率长焦图像(Ref)之间的分辨率差距问题。传统的参考基于超分辨率(RefSR)方法在处理不同视场(FoV)和分辨率差异时存在局限性,而KeDuSR通过对LR的中心区域与Ref进行对齐,结合全局和局部扭曲策略,显著提高了匹配和扭曲性能。原创 2025-03-06 20:22:24 · 368 阅读 · 0 评论 -
AAAI2024最佳解读|IRPruneDet Efficient Infrared Small Target Detection via Wavelet Structure-
本文提出了一种新颖的红外小目标检测(IRSTD)模型IRPruneDet,旨在通过小波结构正则化软通道剪枝提高检测效率。随着深度学习的发展,红外小目标检测的准确性不断提高,但复杂模型的冗余参数导致存储和计算效率低下。为了解决这一问题,IRPruneDet采用小波域权重矩阵表示和小波通道剪枝策略,结合小波正则化以诱导结构稀疏性,避免额外的内存开销。原创 2025-03-06 20:22:12 · 548 阅读 · 0 评论 -
AAAI2024最佳解读|Improving the Adversarial Transferability of Vision Transformers with Virtual Dense
本文提出了一种新的方法——虚拟密集连接(VDC),旨在提高视觉Transformer(ViT)模型的对抗性迁移能力。尽管ViT在计算机视觉任务中表现出色,但它们与卷积神经网络(CNN)一样,仍然容易受到对抗性攻击。研究表明,ViT模型内部组件对对抗性迁移性的影响尚未得到充分探讨。为此,本文通过线性缩放ViT模型中组件的梯度,分析其对对抗性迁移性的影响,发现跳跃连接的梯度对迁移性影响最大。原创 2025-03-06 20:22:00 · 701 阅读 · 0 评论 -
AAAI2024最佳解读|Identification of Necessary Semantic Undertakers in the Causal View for Image-Tex
本文探讨了图像-文本匹配这一多模态智能中的基本任务,重点在于如何捕捉视觉-语义相关性。研究表明,细粒度的语义交互源于图像区域与文本词之间的片段对齐,但并非所有片段都对图像-文本相关性有贡献。为此,本文提出了“必要承担者”的概念,定义为那些对语义共享程度的生成至关重要的片段。通过因果推断,本文设计了一个必要承担者识别框架(NUIF),量化片段对图像-文本相关性的贡献。实验结果表明,该方法在Flickr30K和MSCOCO基准测试中达到了最先进的性能。原创 2025-03-06 20:21:47 · 357 阅读 · 0 评论 -
AAAI2024最佳解读|Spatial Transform Decoupling for Oriented Object Detection
本文提出了一种新方法,称为空间变换解耦(STD),旨在解决视觉Transformer(ViTs)在定向目标检测中的空间变换不变性问题。STD通过独立的网络分支来预测边界框的位置、大小和角度,从而有效利用ViTs的空间变换能力。该方法通过级联激活掩码(CAMs)逐步增强感兴趣区域(RoIs)内的特征,补充了自注意力机制。实验结果表明,STD在DOTA-v1.0(82.24% mAP)和HRSC2016(98.55% mAP)等基准数据集上实现了最先进的性能,证明了其有效性。原创 2025-03-05 17:55:36 · 371 阅读 · 0 评论 -
AAAI2024最佳解读|Semantic Segmentation in Multiple Adverse Weather Conditions with Domain Knowledge
本文提出了一种针对多重恶劣天气条件的语义分割方法,该方法通过自适应知识获取、伪标签混合和天气组合重放来增强模型的适应性和鲁棒性。现有的无监督域适应方法在将模型依次适应多个未标记的恶劣天气条件时,往往面临获取新知识与保留先前知识之间的矛盾。为了解决这一问题,本文的方法能够在学习新目标的同时,避免从极端图像中学习,从而减少遗忘。通过将当前模型与之前学习的模型结合,增强了伪标签的鲁棒性,并通过天气组合重放机制持续细化先前学习的天气信息。原创 2025-03-05 17:55:24 · 581 阅读 · 0 评论 -
AAAI2024最佳解读|SD-MVS Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and
本文提出了一种名为SD-MVS的多视图立体匹配方法,旨在有效解决无纹理区域的三维重建问题。该方法首次采用Segment Anything Model (SAM)来区分场景中的语义实例,并利用这些约束进行像素级补丁变形,以优化匹配成本和传播。SD-MVS结合了球面坐标和法线的梯度下降,提出了一种独特的细化策略,显著提高了重建三维模型的完整性。此外,采用期望最大化(EM)算法交替优化聚合匹配成本和超参数,减少了对经验调优的依赖。原创 2025-03-05 17:55:08 · 897 阅读 · 0 评论 -
AAAI2024最佳解读|Scribble Hides Class Promoting Scribble-Based Weakly-Supervised Semantic Segmentation
本文提出了一种基于涂鸦的弱监督语义分割方法,旨在通过利用类别标签来提升模型性能。现有方法主要依赖局部线索将标注像素扩散到未标注像素,未能有效利用全局语义和类别特定线索。为此,本文提出了一种类别驱动的涂鸦提升网络(CDSP),结合涂鸦标注和基于图像级类别的伪标签进行监督。该方法设计了一个定位校正模块(LoRM)来修正特征空间中的前景表示,并引入距离熵损失(DEL)以减少不确定性。实验结果表明,CDSP在ScribbleSup数据集上表现优于现有方法,展示了其优越性和鲁棒性。原创 2025-03-05 17:54:53 · 362 阅读 · 0 评论 -
AAAI2024最佳解读|Scalable Geometric Fracture Assembly via Co-creation Space among Assemblers
本文提出了一种可扩展的几何断裂组装框架,旨在通过组装者之间的协同创作空间来重建破损物体。以往的方法主要依赖于语义信息进行碎片组装,限制了可组装对象的数量。为此,本文提出了一种新颖的协同创作空间,允许多个组装器逐步且明确地组装断裂部分。此外,本文引入了一种新的损失函数——基于几何的碰撞损失,以解决组装过程中可能出现的碰撞问题。通过在PartNet和Breaking Bad数据集上的广泛实验,结果表明该框架在计算复杂度、抽象能力和泛化能力方面均优于现有的最先进方法。原创 2025-03-05 17:54:42 · 229 阅读 · 0 评论 -
AAAI2024最佳解读|S2WAT Image Style Transfer via Hierarchical Vision Transformer using Strips Windo
本文提出了一种新的图像风格迁移框架,称为条带窗口注意力Transformer(S2WAT),旨在解决传统Transformer在局部建模方面的不足。S2WAT通过引入多种窗口形状的注意力计算,能够同时捕获短距离和长距离的依赖关系。该方法采用“Attn Merge”策略,动态确定不同窗口注意力的空间权重,从而有效整合局部和全局特征。通过在多个代表性数据集上的广泛实验,S2WAT在风格迁移任务中表现出色,超越了现有的最先进方法。原创 2025-03-05 17:54:31 · 712 阅读 · 0 评论 -
AAAI2024最佳解读|Robust 3D Tracking with Quality-Aware Shape Completion
本文提出了一种新的鲁棒三维跟踪框架,称为SCVTrack,旨在解决点云稀疏性和不完整性带来的挑战。现有的三维跟踪算法通常依赖于稀疏点云进行特征学习,但由于稀疏性,学习到的几何特征往往不够准确。为此,本文提出了一种质量感知的形状补全机制,通过融合来自历史帧的真实目标点,构建合成目标表示,从而实现更精确的三维跟踪。SCVTrack框架包括质量感知形状补全模块、体素化关系建模模块和框细化模块,能够有效提高跟踪性能。实验结果表明,该方法在多个基准数据集上优于现有的最先进算法,展示了其有效性和泛化能力。原创 2025-03-05 17:54:19 · 261 阅读 · 0 评论 -
AAAI2024最佳解读|Revisiting Open-Set Panoptic Segmentation
本文聚焦于开放集全景分割(OPS)任务,以应对数据爆炸问题。OPS旨在检测已知和未知类别,其中未知类别在训练期间未被标注。与现有研究仅选择少数常见类别作为未知类别不同,本文考虑了多种尾部类别(约1000个),以更贴近现实场景。为此,研究者们构建了一个新的长尾分布数据集,并重新定义了训练标注,使OPS的定义更加完整和合理。文章分析了OPS任务中几个重要因素的影响,并提出了一种有效的两阶段框架,包括无物体地图生成和未知片段挖掘。此外,采用半监督学习来提升OPS性能。原创 2025-03-05 17:54:06 · 402 阅读 · 0 评论 -
AAAI2024最佳解读|RadOcc Learning Cross-Modality Occupancy Knowledge through Rendering Assisted
本文提出了一种名为RadOcc的渲染辅助蒸馏方法,旨在解决3D占用预测中的跨模态知识蒸馏问题。3D占用预测是利用多视角图像估计3D场景的占用状态和语义的任务,但由于缺乏几何先验,基于图像的场景感知面临显著挑战。RadOcc通过引入可微体积渲染技术,生成深度和语义图,并在教师模型和学生模型之间建立一致性标准。实验结果表明,RadOcc在nuScenes数据集上显著提高了3D占用预测的性能,尤其在mIoU指标上提升了2.2%,并在Occ3D基准测试中达到了50%的准确率。原创 2025-03-05 17:53:52 · 518 阅读 · 0 评论 -
AAAI2024最佳解读|Progressive Text-to-Image Diffusion with Soft Latent Direction-water-merged
本文提出了一种创新的渐进式文本到图像生成和编辑操作,旨在解决在合成和操控多个实体时面临的挑战。现有的文本到图像生成模型在处理复杂的文本描述时,尤其是涉及多个实体时,常常出现缺失实体和不准确的对象关系。为此,作者引入了刺激、响应和融合(SRF)框架,通过利用大型语言模型(LLM)将复杂的文本描述分解为简洁的指令,确保在每个步骤中遵循空间和关系约束。该框架在处理复杂和冗长的文本输入时,显著提高了对象合成的效果,并为文本到图像生成任务设立了新的基准。原创 2025-03-05 17:53:41 · 240 阅读 · 0 评论 -
AAAI2024最佳解读|Point Deformable Network with Enhanced Normal Embedding for Point Cloud Analysis
本文提出了一种新的点云分析方法——点可变形网络(PDNet),旨在解决现有基于多层感知机(MLP)的方法在捕捉长距离依赖关系方面的不足。PDNet引入了点可变形聚合模块(PDAM),该模块能够从可变形参考点聚合信息,而不是仅限于局部区域的点,从而增强了表示能力。通过数据依赖的方式生成可变形参考点,并学习额外的偏移量和调制标量,使得网络能够自适应地聚合来自远距离区域的信息。此外,本文还提出了增强法向量嵌入(ENE),以提高单点的表示能力。原创 2025-03-05 17:53:25 · 440 阅读 · 0 评论