Qing_er爱吃山竹-优快云博客

原创红外小目标检测（Infrared Small Target Detection, ISTD）

具体方法包括：跨视角通道对齐（Cross-view Channel Alignment, CCA），用于缓解数据集之间的分布差异，实现跨样本对齐；3）背景：红外小目标检测高度依赖于传感器类型、观测条件和目标本身的特性，这些因素容易引起不同数据集之间的分布差异，即所谓的“领域偏移（domain shift）”。这种分布不一致严重影响了现有检测模型在多场景下的泛化能力。5）结果：与现有最先进方法相比，该方法在检测概率（Pd）、虚警率（Fa）和交并比（IoU）等指标上表现更优，展示出更强的跨域鲁棒性与检测精度。

2025-04-30 14:46:47 724

原创图像去雨Cross Paradigm Representation and Alignment Transformer for Image Deraining

4）方法：为了解决这一问题，本文提出了CPRAformer，其核心思想是通过层次化表示和对齐，结合空间-通道和全局-局部两个范式的优势，促进图像的有效重建。具体方法包括：在Transformer模块中使用两种自注意力机制：稀疏提示通道自注意力（SPC-SA），增强全局通道依赖性，通过动态稀疏化来提升效果；5）结果：大量实验表明，所提出的CPRAformer在八个基准数据集上达到了最先进的性能，并进一步验证了其在其他图像恢复任务及下游应用中的鲁棒性，展示了其在跨范式动态交互框架中的优势。

2025-04-30 14:44:19 830

原创图像恢复RouteWinFormer: A Route-Window Transformer for Middle-range Attention in Image Restoration

4）方法：为了解决计算开销问题，提出RouteWinFormer，一种窗口基的Transformer模型，专注于中等范围的上下文建模。3）背景：近年来，Transformer模型因其捕捉长距离像素依赖的能力，在图像恢复中受到广泛关注。然而，长距离注意力通常会带来计算开销，而图像退化和上下文通常是局部的，因此长距离注意力在实际应用中并不总是必要的。5）结果：大量实验表明，RouteWinFormer在9个数据集上的多种图像恢复任务中均优于现有最先进的方法，展示了其在图像恢复领域的优越性能。

2025-04-30 14:42:31 270

原创视频质量评估（VQA）

4）方法：本文提出了基于Mamba模型的MVQA方法，结合了一种新的统一语义与失真采样（USDS）方法。为了避免双输入带来的计算增加，本文提出了一种使用预定义掩码的融合机制，能够统一进行采样，既捕捉语义信息又保留质量信息，而无需额外的计算开销。5）结果：实验结果表明，提出的MVQA模型在结合USDS方法后，能够实现与现有最先进方法相当的性能，同时速度提高了2倍，所需GPU内存仅为原来的1/5，显示了其在效率和性能上的优越性。1）方向：视频质量评估（VQA）

2025-04-27 14:16:21 533

原创视频摘要ViSMaP: Unsupervised Hour-long Video Summarisation by Meta-Prompting

（无监督视频摘要生成的元提示方法），该方法通过大语言模型（LLMs）利用短视频的分段描述来创建长视频的优化伪摘要。伪摘要作为训练数据被用来生成长视频的摘要，从而避免了对长视频进行昂贵注释的需求。3）背景：目前大多数现有的视频理解模型在短视频和预先分割的事件上表现良好，但在处理长时间视频时表现较差，尤其是当相关事件分布稀疏且没有预先分割时。5）结果：实验结果表明，ViSMap在多个数据集上表现优异，生成的摘要效果与完全监督的最先进模型相当，并且能够在跨领域的情况下保持性能，而无需牺牲效果。

2025-04-27 14:15:32 410

原创红外弱小目标检测Motion-Enhanced Nonlocal Similarity Implicit Neural Representation for Infrared Dim and Smal

框架，该方法包含以下几个创新点：运动估计：通过光流技术捕捉目标的细微运动；张量分解：基于张量分解的INR模型有效表示非局部图像块张量，从而通过连续神经表示编码背景的低秩性和时空相关性；3）背景：在红外弱小目标检测中，由于动态多帧场景和目标特征微弱，传统的低秩加稀疏模型通常无法有效捕捉动态背景和全局时空相关性，导致背景泄漏或目标丢失，因此，需要更有效的技术来解决这些挑战。5）结果：实验结果表明，所提出的方法能够稳健地从复杂红外背景中分离出弱小目标，并在检测准确性和鲁棒性方面超过了现有最先进的方法。

2025-04-27 14:14:36 345

原创水下目标检测You Sense Only Once Beneath: Ultra-Light Real-Time Underwater Object Detection

5）结果：最终构建的YSOOB检测器仅包含1.2M参数，但在URPC2020和DUO两个数据集上分别达到83.1% 和 82.9% 的 mAP50，性能与当前最先进方法相当。在推理速度方面，YSOOB在T4 GPU（TensorRT FP16）和Jetson Xavier NX（TensorRT FP16）设备上的推理速度分别达到781.3 FPS 和 57.8 FPS，分别比YOLOv12-N提高了28.1% 和 22.5%。通过通道压缩和重构大核卷积（RLKC）的方式，减少模型冗余，实现模型轻量化。

2025-04-26 11:00:00 488

原创热成像目标检测

此外，研究团队还构建了一个多传感器数据集 IndraEye，包含5,612张图像和145,666个实例，覆盖多角度、多高度、多时间等复杂拍摄场景，用于验证SAGA在无人机图像上的有效性，并支持多模态学习和目标检测、分割任务。5）结果：实验结果表明，SAGA 在与现有最先进领域自适应方法结合使用时，在多个数据集（包括自主驾驶任务和IndraEye数据集）上均带来了 +0.4% 至 +7.6% 的 mAP 提升，显著增强了RGB到IR的适应能力。1）方向：热成像目标检测。2）应用：热成像目标检测。

2025-04-26 09:30:00 391

原创高光谱图像（HSI）分类

该框架结合了像素-补丁和全图两种方法的优点，采用将从整张图像切割出的补丁发送到多组Mamba，并结合位置信息来感知空间和光谱域中的局部内联特征。尽管基于选择性状态空间模型（S6）的Mamba架构在长序列建模中具有显著优势，但高光谱数据的独特属性（如高维度和特征内联）使得Mamba架构在此任务中应用时面临挑战。5）结果：通过广泛的实验验证，HS-Mamba在四个基准高光谱数据集上的表现优于现有的最先进方法，证明了其在高光谱图像分类中的优势。2）应用：高光谱图像（HSI）分类。

2025-04-26 09:00:00 374

原创图像超分辨率（Image Super-Resolution, ISR）

为了解决这一问题，本文提出了直接语义偏好优化（Direct Semantic Preference Optimization, DSPO）方法，结合语义指导，通过两种策略来实现实例级人类偏好对齐：（a）语义实例对齐策略，确保细粒度感知一致性；因此，引入人类偏好对齐成为提升图像生成质量的重要方向，尤其是在语言模型和文本到图像生成等任务中已有应用。5）结果：实验结果表明，DSPO作为一种即插即用的解决方案，在一阶段和多阶段超分辨率框架中均表现出极高的有效性，显著提升了生成图像的质量和与人类偏好的对齐度。

2025-04-25 17:49:14 463

原创虚拟试穿Shape-Guided Clothing Warping for Virtual Try-On

4）方法：为了应对这些挑战，提出了SCW-VTON方法，它通过引入全局形状约束和额外的肢体纹理来增强服装变形的真实性和一致性。形状路径用于捕捉与人体对齐的服装形状，而流动路径则利用服装形状的前后变形映射来指导外观流的估计。3）背景：现有的虚拟试穿方法通常采用薄板样条（TPS）变换或外观流技术来变形服装，以便与人体形状对齐。5）结果：实验结果表明，SCW-VTON在服装形状一致性和细节控制上显著优于现有的最先进方法，无论是在定性还是定量上都有明显的提升。

2025-04-25 17:48:32 278

原创终身人员重识别（Lifelong Person Re-identification, LReID）

具体方法包括：基于文本的提示聚合（TPA）：利用文本特征丰富提示元素，指导提示模型学习每个实例的细粒度表示，增强身份信息的区分度，并为领域分布感知奠定基础。基于分布的感知与整合（DAI）：通过专门的专家网络捕捉每个领域的特定分布，并自适应地将它们整合到高维空间中的共享区域，从而促进跨域共享表示学习并减轻灾难性遗忘。知识整合机制（KCM）：包括实例级别的区分和跨域一致性对齐策略，帮助模型自适应学习当前领域的新知识，并促进已获得的领域特定分布之间的知识整合。现有的解决方案分为基于回放的和非回放的方法。

2025-04-25 17:47:38 845

原创水下图像去雾snnTrans-DHZ: A Lightweight Spiking Neural Network Architecture for Underwater Image Dehazing

（iii）软图像重建模块，用于生成无雾增强图像。5）结果：在UIEB数据集上，该模型取得了21.68 dB的PSNR和0.8795的SSIM，在EUVP数据集上分别达到23.46 dB和0.8439，表现优于现有先进去雾方法。同时，snnTrans-DHZ模型仅包含约56.7万参数，计算量为7.42 GSOPs，能耗仅为0.0151焦耳，展现出极高的能效比和应用价值。3）背景：由于水下环境中光的散射与吸收会严重影响图像的可视性，因此提高水下图像清晰度成为实现高效海洋视觉操作的关键。2）应用：水下图像去雾。

2025-04-24 10:27:18 620

原创低光照图像增强（Low-Light Image Enhancement, LLIE）

4）方法：本文提出一种新颖的、基于图像信号处理（ISP）驱动的数据合成管线。该方法首先将高质量正常光照图像通过反向ISP还原为RAW格式，在RAW域中合成低光退化，并通过白平衡调整、色彩空间转换、色调映射、伽马校正等多个ISP阶段引入可控扰动，生成多样化且真实的配对训练数据。论文作者：Zhihua Wang,Yu Long,Qinghua Lin,Kai Zhang,Yazhu Zhang,Yuming Fang,Li Liu,Xiaochun Cao。

2025-04-24 10:25:57 992

原创视频去模糊Coding-Prior Guided Diffusion Network for Video Deblurring

结合了编码先验与生成式先验以实现高质量的视频去模糊。第二阶段是编码先验控制生成模块（CPC），将编码先验引入预训练的扩散模型中，引导其增强关键区域并合成真实细节，从而提升去模糊效果。3）背景：尽管当前的视频去模糊方法取得了显著进展，但它们通常忽略了两个重要的先验信息来源：（1）视频编解码中生成的运动矢量（MVs）与残差信息（CRs），可作为高效的帧间对齐与纹理线索；5）结果：实验结果显示，CPGDNet 在感知质量方面实现了业界领先的表现，在图像质量评价指标（IQA）上最多提升了30%。

2025-04-24 10:24:44 656

原创遥感中的动态目标检测DiffMOD: Progressive Diffusion Point Denoising for Moving Object Detection in Remote Sensi

4）方法：为解决上述挑战，提出了一种基于点云的MOD方法，灵感来源于扩散模型，并将网络优化过程表述为逐步去噪的过程，旨在迭代地从稀疏的噪声点中恢复动态目标的中心位置。现有的基于深度学习的MOD方法通常依赖概率密度估计，但这限制了物体之间以及跨时间帧的信息交互，无法灵活地捕捉物体间和时间上的高阶关系。5）结果：在RsData遥感MOD数据集上的实验结果表明，基于稀疏点去噪的MOD方法能够更有效地探索稀疏动态物体之间的潜在关系，显著提升检测能力和时间一致性。1）方向：遥感中的动态目标检测。

2025-04-23 14:27:38 558

原创空地协同的人体重识别（Aerial-Ground Person Re-Identification, AG-ReID）

为进一步增强视角生成能力，设计了视角优化解码器（View-Refine Decoder, VRD），用于生成额外的可控条件，以补全缺失的跨视角特征。然而，设计这种视角鲁棒网络非常困难，且现有方法普遍忽视了视角特异性特征对提升人物表征能力的作用，导致在处理大视角差异时性能受限。5）结果：在多个AG-ReID基准数据集上的广泛实验证明，SD-ReID在处理跨视角人物检索任务中表现优异，验证了其方法在空地多视角特征学习与融合方面的有效性。2）应用：智慧城市监控、空地协同安防、无人机巡逻等场景。

2025-04-23 14:26:54 907

原创文本驱动人物检索（Text-based Person Retrieval, TPR）

4）方法：本文提出一种统一的参数高效迁移学习方法——UP-Person，旨在充分迁移CLIP模型中的多模态知识。Adapter 用于调整全局特征表示。3）背景：随着视觉-语言预训练模型（如CLIP）的发展，TPR任务性能取得显著提升，尤其是通过对CLIP模型的全量微调。5）结果：在多个主流人物检索数据集（CUHK-PEDES、ICFG-PEDES 和 RSTPReid）上的实验结果显示，UP-Person在仅微调4.7%的参数的情况下，即可实现当前最优性能，显著优于现有方法，证明了其高效性和有效性。

2025-04-23 14:25:38 422

原创人体重识别LLaVA-ReID: Selective Multi-image Questioner for Interactive Person Re-Identification

进一步，作者提出LLaVA-ReID模型，该模型基于图像和文本上下文生成有针对性的问题，以引导用户补充更丰富的目标信息。3）背景：传统的文本描述式人体重识别（text-based ReID）假设目击者能一次性提供完整、清晰的人物描述，但在现实场景中，描述往往是片段化或模糊不清的，这限制了重识别系统的实际效果。5）结果：实验结果表明，LLaVA-ReID在Inter-ReID任务以及传统的文本式ReID基准测试中均显著优于现有基线模型，验证了其在交互式人物识别场景中的有效性与先进性。1）方向：人体重识别。

2025-04-22 17:56:00 388

原创显著目标检测（Salient Object Detection, SOD）

4）方法：为解决上述问题，提出了“不确定性引导学习”（uncertainty guidance learning）策略，并设计了一种新的不确定性引导细化注意力网络（UGRAN）。不确定性细化注意力模块（URA）：利用从显著性预测图生成的不确定性图，引导模型加强对模糊区域的关注，提升预测图的饱和度与细节表现。5）结果：在七个主流SOD基准数据集上的实验结果表明，UGRAN在精度与细节刻画能力上均显著优于现有先进方法，展现出优越的泛化能力和实际应用潜力。

2025-04-22 17:55:09 557

原创目标检测Density-based Object Detection in Crowded Scenes

4）方法：本文提出了密度引导锚点（DGA）和密度引导非极大值抑制（DG-NMS）两种新策略。具体而言，DGA通过最小运输成本将每个地面真实目标的密度传输到每个锚点位置，从而共同计算最佳锚点分配和重加权策略。在最优传输（UOT）中，专门设计了一种重叠感知的传输成本，用于解决由相邻重叠物体引起的模糊锚点问题。3）背景：在与一般场景相比，拥挤场景包含大量重叠的实例，导致目标检测器在训练时面临更为模糊的锚点，并且推理过程中更多的预测结果可能会被错误地抑制。5）结果：在具有挑战性的。

2025-04-22 17:54:27 288

原创人体姿态与形状（HPS）PromptHMR: Promptable Human Mesh Recovery

3）背景：现有的人体姿态与形状估计方法往往缺乏有效机制来结合辅助的“侧信息”，从而提升在复杂场景下的重建精度。此外，最精确的方法通常依赖于裁剪后的人员检测，无法有效利用场景上下文，而处理全图像的方法虽然能够考虑场景信息，但往往难以准确检测人物，并且比使用裁剪图像的方法效果差。5）结果：在多个基准数据集上的实验表明，PromptHMR在各种挑战性场景中表现出色，能够准确估计从边界框（如拥挤场景中的人脸）中的人物，利用语言描述提高身体形状估计，建模人物之间的互动，并在视频中生成时间连贯的动作。

2025-04-20 12:00:00 508

原创图像描述生成Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception

该方法是一个无需重新训练模型的流程，适用于开源模型（如LLaVA-1.5、LLaVA-1.6、Mini-Gemini）和闭源模型（如Claude-3.5-Sonnet、GPT-4o、GLM-4V-Plus）。3）背景：高质量的图像描述对跨模态应用至关重要，然而，目前的多模态大语言模型（MLLMs）在生成图像字幕时经常存在缺乏细节或产生幻觉（不真实信息）的情况。5）结果：实验表明，所提出的方法能够生成更加详细和可靠的图像字幕，显著提升了多模态描述生成的质量，而无需重新训练模型。2）应用：图像描述生成。

2025-04-20 10:00:00 553 2

原创 3D场景理解Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D

4）方法：为了克服这一局限，提出一种新的评估协议，专门用于评估自监督特征在3D场景理解中的质量。3）背景：自监督学习在2D计算机视觉中取得了显著成果，通过在大规模无标注数据集上训练，提供了与标签训练模型相媲美的通用特征。然而，在3D场景理解中，自监督方法通常仅作为任务特定微调的权重初始化步骤，限制了其在通用特征提取中的应用。5）结果：实验结果表明，所提出的方法在性能上不仅与监督模型相当，而且在多个方面大大超越了现有的自监督方法。1）方向：3D场景理解。2）应用：3D场景理解。

2025-04-20 09:00:00 445

原创草图上色ColorizeDiffusion v2: Enhancing Reference-based Sketch Colorization Through Separating Utilities

为了缓解草图语义细节的缺失，使用专门的背景和风格编码器在潜在特征空间中传递详细的参考信息，从而实现更好的空间控制和更丰富的细节合成。此外，提出了角色掩码合并和背景漂白的预处理步骤，以改善前景与背景的融合及背景的生成。3）背景：现有的大部分草图上色方法依赖于训练时使用的草图、参考图像和真实标签的三元组，这些图像在语义和空间上是高度一致的。然而，真实世界的参考图像和草图经常存在较大的不对齐，这导致了数据分布的差异，并在推理过程中产生过拟合现象，从而引发空间伪影和上色质量的显著下降，限制了当前方法的广泛应用。

2025-04-19 10:30:00 464

原创综述：自动驾驶Systematic Literature Review on Vehicular Collaborative Perception -- A Computer Vision Persp

通过深入探讨各相关主题，本综述为协同感知领域的挑战、机遇与风险提供了宝贵的参考，有助于推动未来的研究发展。论文作者：Lei Wan,Jianxin Zhao,Andreas Wiedholz,Manuel Bied,Mateus Martinez de Lucena,Abhishek Dinkar Jagtap,Andreas Festag,Antônio Augusto Fröhlich,Hannan Ejaz Keen,Alexey Vinel。作者单位：XITASO Gmbh;

2025-04-19 09:30:00 398

原创水印去除Bridging Knowledge Gap Between Image Inpainting and Large-Area Visible Watermark Removal

4）方法：本文提出一种新的特征适应框架，结合了预训练的图像修复模型的表示建模能力，旨在解决水印去除中的背景恢复问题。此外，为了减少对高质量水印掩码的依赖，本文引入了一个新的训练范式，利用粗略的水印掩码来指导推理过程，确保模型在测试时对水印掩码质量不敏感。Afirstsoft,3）背景：现有的基于深度神经网络（DNN）的方法在去除大面积水印时仍面临困难，尤其是过度依赖水印掩码的质量。当水印掩码质量较差时，现有方法的性能会显著下降，因此，如何减少对高质量水印掩码的依赖，成为该领域的一大挑战。

2025-04-19 09:00:00 510

原创图像恢复Content-Aware Transformer for All-in-one Image Restoration

通过结合可变形滑动窗口Transformer和中央集成模式，DSwinIR综合了卷积神经网络（CNNs）和Transformer的优点，同时克服了它们的不足。在全能图像恢复任务中，相比于PromptIR，DSwinIR在三任务设置和五任务设置下，分别取得了超过0.66 dB和1.04 dB的性能提升。3）背景：尽管近年来Transformer架构在图像处理领域取得了显著进展，但仍面临一些挑战，特别是在窗口自注意力机制中存在的有限感受野问题，导致模型难以有效聚焦于图像中的关键区域。

2025-04-18 11:22:44 696

原创图像质量评估Content-Distortion High-Order Interaction for Blind Image Quality Assessment

通过集成内部交互、粗略交互和细致交互，CoDI-IQA实现了高阶交互建模，从而准确表示内容和失真之间的相互作用模式。此外，为确保足够的交互，采用多个PPIM在不同粒度下分层融合多级内容和失真特征，同时量身定制了适用于CoDI-IQA的训练策略，以保持交互稳定性。尽管现有的NR-IQA方法已经尝试建模这两个因素，但它们未能有效捕捉内容和失真之间复杂的相互作用，这限制了它们准确感知图像质量的能力。5）结果：大量实验结果表明，CoDI-IQA在预测准确性、数据效率和泛化能力方面显著优于现有的最先进方法。

2025-04-18 11:21:18 404 1

原创图像修复+天气退化DA2Diff: Exploring Degradation-aware Adaptive Diffusion Priors for All-in-One Weather Resto

4）方法：为了应对这些挑战，提出一个创新的扩散范式，称为DA2Diff，采用退化感知自适应先验进行多天气修复。此外，为了进一步提高对复杂天气退化的适应性，提出了一个动态专家选择调节器，利用动态天气感知路由器灵活地为每张退化图像分配不同数量的修复专家，从而使扩散模型能够自适应地恢复不同的退化情况。3）背景：近年来，所有一体化框架（all-in-one frameworks）在处理多种天气退化问题方面展现出潜力，但不同天气条件下退化模式的多样性以及现实世界退化的复杂性仍然是一个显著挑战。

2025-04-18 11:19:57 418

原创开放世界跟踪（OWT）EffOWT: Transfer Visual Language Models to Open-World Tracking Efficiently and Effectivel

该方法通过构建一个独立且可学习的小型侧网络，附加在VLM的主干网络外部，并冻结主干网络，仅在侧网络上执行反向传播，从而提升模型的效率。3）背景：在将视觉语言模型（Visual Language Models，VLMs）应用于开源目标追踪时，存在两大挑战：完全微调会导致过高的参数和内存成本，而零样本策略则会导致性能不理想。5）结果：通过这些方法，EffOWT在未知类别的追踪指标OWTA上取得了5.5%的绝对增益，相比完全微调，仅更新了1.3%的参数，内存节省了36.4%。1）方向：开放世界跟踪（OWT）

2025-04-18 11:18:46 215

原创人体识别（Human Recognition）SapiensID: Foundation for Human Recognition

4）方法：本文提出了SapiensID，这是一个统一的人体识别模型，旨在弥合面部与身体分析之间的差距。5）结果：通过在多个身体ReID基准数据集上的广泛实验，SapiensID展示了最先进的性能，特别是在短期和长期场景下，超越了传统的专业模型，并且在面部识别系统中保持了竞争力。3）背景：现有的人体识别系统通常依赖于面部和身体分析的独立专业模型，这种方式在实际应用中存在一定局限性，尤其是在姿势、可见性和环境条件变化较大的情况下，表现不够稳定和准确。2）应用：人体识别（Human Recognition）

2025-04-17 17:59:08 467

原创人群计数（crowd counting）RCCFormer: A Robust Crowd Counting Network Based on Transformer

4）方法：为了解决这些问题，提出了RCCFormer网络，包含以下几个关键模块：多级特征融合模块（MFFM）：在不同阶段提取的特征进行精确融合，增强了模型对复杂特征的捕捉能力，超过了传统基线方法。5）结果：在上海科技大学Part_A和Part_B、NWPU-Crowd和QNRF等多个数据集上进行了验证，结果表明RCCFormer在所有四个数据集上均取得了卓越的性能，展示了最先进的效果。3）背景：人群计数是计算机视觉中的一个重要任务，但面临背景复杂和尺度变化等挑战，这些问题大大影响了人群计数的准确性。

2025-04-17 17:57:27 326

原创图像融合Balancing Task-invariant Interaction and Task-specific Adaptation for Unified Image Fusion

TITA框架包括：交互增强像素注意力（IPA）模块，增强像素级的交互作用，以便更好地提取多源互补信息；3）背景：现有的图像融合方法通常将所有融合任务视为统一问题，以便促进任务无关的知识共享，但这种方式忽视了任务特定的特征，从而限制了整体性能。此外，许多现有方法依赖于任务标识进行适应，但这种依赖性在推理过程中限制了模型对未见过的融合任务的泛化能力。5）结果：大量实验表明，TITA不仅在三个图像融合场景中表现出与专业化方法相媲美的竞争力，且在面对未见过的融合任务时展现了强大的泛化能力。

2025-04-17 17:56:28 489

原创视觉问答（VQA）QIRL: Boosting Visual Question Answering via Optimized Question-Image Relation Learning

4）方法：为了解决上述问题，提出了QIRL框架，采用基于生成的自监督学习策略。具体而言，框架引入了两个模块：负图像生成（NIG）模块，该模块在训练过程中自动生成高度无关的问图对，从而增强相关性学习；此外，还提出了一种专门的指标来评估ISI模块的性能。然而，这些方法存在两个主要问题：一是无法捕捉图像和文本之间的深层次关系，二是在推理过程中未能评估输入问题与图像之间的相关性。5）结果：在VQA-CPv2和VQA-v2数据集上的广泛实验表明，QIRL方法有效提升了去偏性能，并展示了良好的泛化能力。

2025-04-16 09:31:27 577

原创多目标跟踪（MOT）TQD-Track: Temporal Query Denoising for 3D Multi-Object Tracking

4）方法：为了克服这些问题，提出了TQD-Track方法，该方法引入了时序查询去噪（TQD），使去噪后的查询能够携带时间信息和实例特定的特征表示。然而，现有方法中，去噪过程仅在单一帧内进行，未能有效利用时序相关信息，且去噪过程中的注意力掩码阻碍了去噪与目标查询之间的信息交换，限制了其在改进自注意力关联上的潜力。5）结果：在nuScenes数据集上的大量实验结果表明，通过仅改变训练过程，TQD方法能够一致性地增强不同的追踪方法，尤其是在具有显式关联模块的追踪范式中。

2025-04-16 09:30:39 704

原创遥感图像检索（RS-CBIR）REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing

与依赖像素重建的生成方法和负样本对的对比方法不同，REJEPA在特征空间内进行操作，结合了方差-不变性-协方差正则化（VICReg）以增强特征的多样性，减少冗余，并防止编码器崩溃。该方法在减少计算复杂性的同时，仍能确保强大且多样化的特征表示。5）结果：实验证明，REJEPA在多个遥感数据集上显著提高了检索准确性，相较于现有的自监督学习方法，BEN-14K（S1）提高了5.1%，BEN-14K（S2）提高了7.4%，FMoW-RGB提高了6.0%，FMoW-Sentinel提高了10.1%。

2025-04-16 09:29:27 442

原创三维人体姿态估计Cooperative Inference for Real-Time 3D Human Pose Estimation in Multi-Device Edge Networks

4）方法：本研究提出了一种新型的协同推理方法，用于在移动边缘计算（MEC）网络中实现实时三维（3D）人体姿态估计，旨在解决在资源受限和动态环境下，因计算复杂度高导致的实时三维姿态估计难题。该方法通过多个轻量级推理模型的终端设备，采用双重置信度阈值过滤模糊图像，只有通过过滤的图像才会被上传至更强大的边缘服务器进行重新评估，从而在计算和通信限制下提高姿态估计的准确性。此外，还进行了数值分析，并提出了一个联合优化问题，旨在最小化每个关节位置误差（MPJPE），同时满足端到端延迟约束。2）应用：三维人体姿态估计。

2025-04-15 20:58:14 352

原创手势识别Electromyography-Based Gesture Recognition: Hierarchical Feature Extraction for Enhanced Spatial

4）方法：为了解决这些问题，提出了一种多分支的深度学习模型，包含三个分支来提取层次化特征，捕捉全局和细致的空间时间关系。第二个分支结合了1D卷积层、可分离卷积网络（CNN）和挤压与激励（SE）模块，有效提取空间时间特征，并强调关键特征通道，增强特征的相关性。第三个分支则结合时间卷积网络（TCN）和双向长短时记忆网络（BiLSTM），捕捉双向时间关系和时间变化模式。3）背景：基于sEMG的手势识别面临着不稳定的预测和时间变化特征增强不足的挑战。作者单位：The University of Aizu;

2025-04-15 20:57:06 294

原创单图像人体重建HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restor

论文作者：Boyuan Wang,Runqi Ouyang,Xiaofeng Wang,Zheng Zhu,Guosheng Zhao,Chaojun Ni,Guan Huang,Lihong Liu,Xingang Wang。5）结果：实验结果表明，该方法在生成与重建的PSNR质量指标上分别提升了16.45%和12.65%，最终达到了25.62 dB的PSNR，同时在野外数据上展示了良好的泛化能力，并可适用于不同的人体重建骨干模型。1）方向：单图像人体重建。

2025-04-15 20:55:50 418