自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(107)
  • 收藏
  • 关注

原创 图像检索FineCIR: Explicit Parsing of Fine-Grained Modification Semantics for Composed Image Retrieval

4)方法:为了解决上述问题,本文开发了一种强大的细粒度CIR数据标注流程,旨在减少不精确的正样本,并增强CIR系统在准确识别修改意图方面的能力。3)背景:现有的CIR数据集主要使用粗粒度的修改文本(CoarseMT),这无法准确捕捉细粒度的检索意图。由于忽略了细节差异,现有方法面临两个主要问题:(1)导致不精确的正样本,(2)当检索到的图像在视觉上相似时,检索结果更具模糊性。5)结果:通过大量实验验证,FineCIR在细粒度和传统CIR基准数据集上均超越了现有的CIR方法,展现了显著的性能提升。

2025-04-10 09:09:09 328

原创 图像压缩Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression

4)方法:为了解决这些问题,本文提出了一种基于可逆变换的可变比特率图像压缩模型。为了提高压缩效率,还提出了一种多尺度空间-通道上下文模型,并加入了扩展增益单元来估计从高到低层次的潜在表示的熵。5)结果:实验结果表明,所提出的方法在与现有的可变比特率方法比较时,达到了最先进的性能,并且在最近的多模型方法中仍然具有竞争力。3)背景:自编码器结构在最近的图像压缩方法中占主导地位,但其固有的信息损失限制了在高比特率下的率失真性能,同时也限制了比特率适应的灵活性。因此,需要一种新的方法来克服这些局限。

2025-04-10 09:08:05 316

原创 图像恢复Invert2Restore: Zero-Shot Degradation-Blind Image Restoration

4)方法:为了解决这一问题,本文提出了Invert2Restore方法,它是一种零-shot、无训练的方法,能够在完全盲或部分盲设置下操作,既无需退化模型的先验知识,也仅需部分已知的退化模型参数。该方法利用预训练的扩散模型,将退化图像映射到正常样本和无失真图像样本之间的确定性映射,通过将输入噪声引导至标准正态分布的高密度区域,成功恢复退化图像。5)结果:实验验证表明,Invert2Restore在多个图像恢复任务中表现出色,尤其在退化操作符未知或部分已知的场景下,展示了其在图像恢复领域的最先进性能。

2025-04-10 09:07:07 107

原创 运动编辑Dynamic Motion Blending for Versatile Motion Editing

论文作者:Nan Jiang,Hongjie Li,Ziye Yuan,Zimo He,Yixin Chen,Tengyu Liu,Yixin Zhu,Siyuan Huang。5)结果:实验表明,MotionReFit 在文本引导的运动编辑任务上达到了最先进的性能(state-of-the-art),展现出更优的编辑能力和运动协调性。3)背景:现有的方法依赖于有限的预先收集的训练三元组,这在多样化的编辑任务中严重限制了其适用性,难以满足复杂的运动编辑需求。1)方向:文本引导的运动编辑。

2025-04-09 09:15:50 556

原创 视频帧插值(VFI)EGVD: Event-Guided Video Diffusion Model for Physically Realistic Large-Motion Frame Inter

5)结果:通过在真实和模拟数据集上的广泛实验,研究表明,EGVD在处理大幅度运动和复杂光照条件下显著优于现有方法,特别在感知质量指标上取得了显著提升(Prophesee数据集上LPIPS提高了27.4%,BSRGB数据集上提高了24.1%),同时在保持竞争力的保真度指标的基础上,EGVD表现出了更好的效果。作者单位:Zhejiang University;尽管事件摄像头能够捕捉高时间分辨率的运动信息,但现有基于事件摄像头的视频帧插值方法仍然面临着有限的训练数据和复杂运动模式的挑战。

2025-04-09 09:14:32 327

原创 重复动作计数CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model

4)方法:为了应对这些挑战,提出了CountLLM,这是第一个基于大语言模型(LLM)的框架,能够将视频数据和周期性文本提示作为输入,输出期望的计数值。5)结果:在广泛认可的基准数据集上的实证评估表明,CountLLM在性能和泛化能力上表现优异,特别是在处理与训练数据显著偏离的新型和领域外动作时,展示了良好的适应性,提供了一条有前景的重复动作计数研究途径。3)背景:现有的重复动作计数方法主要依赖回归网络,这些方法的表示能力有限,无法准确捕捉变动的周期性模式。作者单位:Peking University;

2025-04-09 09:12:36 138

原创 红外图像和可见光图像融合DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible I

4)方法:为了解决这一问题,提出了DCEvo框架,这一框架通过进化学习的强大搜索能力,将双重任务优化视为一个多目标问题,并使用进化算法(EA)动态平衡损失函数参数。3)背景:现有的图像融合方法通常将图像融合与后续高层任务视为独立的过程,导致融合后的图像在任务性能上仅有边际提升,且无法提供有效的反馈来优化融合过程。5)结果:在三个基准数据集上的实验结果表明,DCEvo显著优于现有的最先进方法,视觉质量平均提高了9.32%,同时也增强了后续高层任务的性能。1)方向:红外图像和可见光图像融合。

2025-04-08 10:59:58 324

原创 人群计数Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting

4)方法:本文提出一种新型的半监督人群计数框架TMTB,旨在通过结合数据和模型两个方面,提升在人群密集场景中的半监督学习效果,减少标注成本。具体来说,首先提出了一种适合人群计数任务的数据增强技术,通过填补背景区域有效增强数据多样性,同时保持场景的整体一致性。5)结果:在四个基准数据集上的大量实验表明,TMTB方法显著超越了现有最先进的方法,展示了其在半监督人群计数任务中的优越性能。(Anti-Noise classification head),该分类头提供更准确的监督信息,以应对手工标注中的噪声问题。

2025-04-08 10:58:51 326

原创 零样本组合图像检索(ZS-CIR)Missing Target-Relevant Information Prediction with World Model for Accurate Zero-S

具体而言,首先通过生成世界视图模块构建源视图,该视图通过省略目标视图的某些视觉内容,并结合来自现有图像-文本对的操控意图。5)结果:实验结果表明,PrediCIR模型在六个ZS-CIR任务上表现出强大的泛化能力, consistently 提升了1.73%至4.45%的性能,相比最佳方法取得了显著的提升,并在ZS-CIR任务上达到了新的最先进结果。3)背景:ZS-CIR任务的主要挑战在于如何根据操控文本修改参考图像以准确检索目标图像,尤其是当参考图像缺少目标内容时。2)应用:视觉内容的检索和处理。

2025-04-08 10:48:00 398

原创 轨迹预测Physical Plausibility-aware Trajectory Prediction via Locomotion Embodiment

4)方法:为了解决这一问题,提出了“Locomotion Embodiment”框架,该框架通过物理学法则下的运动生成,显式评估预测轨迹的物理合理性。具体来说,采用不可微分的物理模拟器学习运动的合理性,但在训练过程中,使用可微分的“Locomotion Value”函数来驱动数据驱动的轨迹预测网络。3)背景:人类能够仅凭瞬时观察到的人体姿态信息预测未来的运动轨迹。5)结果:实验结果表明,该方法显著提升了现有最先进的轨迹预测方法的表现,并且在多个数据集和问题设置下均表现出了优越的性能。

2025-04-07 19:00:06 260

原创 单目深度估计(MDE)QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

4)方法:为了解决这一问题,提出了QuartDepth方法,该方法采用后训练量化技术,对单目深度估计模型进行量化,并为ASIC提供硬件加速。3)背景:单目深度估计在计算机视觉中是一个关键任务,但由于高计算和内存需求,尤其是在资源受限的边缘设备(如ASIC)上部署准确的深度估计模型具有挑战性。5)结果:实验结果表明,该框架在ASIC上实现了具有竞争力的准确度,同时支持快速推理和更高的能效,成功弥合了高性能深度估计和实际边缘设备适用性之间的差距。2)应用:单目深度估计(MDE)

2025-04-07 18:59:44 238

原创 红外小目标检测MSCA-Net:Multi-Scale Context Aggregation Network for Infrared Small Target Detection

4)方法:为了解决这些问题,提出了MSCA-Net网络架构,结合了三个关键组件:多尺度增强检测注意力机制(MSEDA)、位置卷积块注意力模块(PCBAM)和通道聚合块(CAB)。具体而言,在NUAA-SIRST、NUDT-SIRST和IRTSD-1K数据集上,分别获得了78.43%、94.56%和67.08%的mIoU得分,证明了其有效性,并展现了强大的现实应用潜力。3)背景:在红外图像中,由于低对比度和高噪声,提取特征时常常丢失关键信息,导致小目标检测变得异常困难。1)方向:红外小目标检测。

2025-04-07 18:58:39 195

原创 3D场景理解Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding

此外,还引入了确定性的不确定性估计方法,用于自适应地提炼和协调来自不同模型的异构2D特征嵌入。该方法解决了两个关键问题:(1)将VLM中的语义先验与空间感知视觉基础模型的几何知识结合,(2)通过创新的确定性不确定性估计,捕捉不同模型在语义和几何敏感度上的特定不确定性,帮助在训练过程中协调异构表示。5)结果:在ScanNetV2和Matterport3D数据集上的广泛实验结果表明,该方法不仅在开词汇分割上取得了进展,还实现了稳健的跨领域对齐和具有竞争力的空间感知能力,展示了其在3D场景理解中的优势和创新性。

2025-04-03 14:38:37 408

原创 超高分辨率图像修复RETHINED: A New Benchmark and Baseline for Real-Time High-Resolution Image Inpainting On Ed

4)方法:本文提出了第一个针对边缘设备的超高分辨率实时图像修复基准(RETHINED)。该方法结合了CNN的结构化能力和基于补丁的方法提供的高层次细节,是高分辨率图像修复的关键。5)结果:在多种移动设备上的广泛测试表明,本文提出的方法能够在不到30毫秒的时间内完成超高分辨率图像修复,且修复性能与现有的最先进方法相当,但速度提升了100倍。3)背景:现有的图像修复方法对于低分辨率图像表现出色,但大多数算法在处理高分辨率图像时存在性能问题,需要强大的硬件支持,这使得它们难以在边缘设备上部署,限制了实际应用。

2025-04-02 15:33:28 149

原创 视频修复(Video Restoration,VR)Temporal-Consistent Video Restoration with Pre-trained Diffusion Models

4)方法:本文提出了一种新的最大后验(Maximum a Posterior,MAP)框架,将扩散模型中的逆过程视为一个函数,并直接在扩散模型的种子空间中对视频帧进行参数化,从而消除近似误差。3)背景:虽然近期的零-shot视频修复方法利用预训练的扩散模型(Diffusion Models,DMs)表现出良好的前景,但这些方法在逆扩散过程中会出现近似误差,并且存在时间一致性不足的问题。5)结果:在多个虚拟现实任务中的大量实验表明,本文方法相比于现有的最先进方法,能够实现更优的视觉质量和时间一致性。

2025-04-02 15:31:37 295

原创 图像去雾Exploiting Diffusion Prior for Real-World Image Dehazing with Unpaired Training

4)方法:为了克服上述问题,提出了一个无配对的去雾框架Diff-Dehazer,借助扩散模型的强大生成能力来处理雾霾和清晰图像。此外,还通过整合物理先验,进一步挖掘现实世界的数据知识,并提出了一种新的方法,去除图像和文本模态中的退化现象,从而提升去雾效果。3)背景:无配对训练被验证为处理真实场景去雾问题的有效方法,通过学习无配对的雾霾图像和清晰图像。5)结果:在多个真实世界数据集上的大量实验表明,Diff-Dehazer显著提高了去雾效果,优于现有的其他方法,验证了该方法的优越性和有效性。

2025-04-02 15:29:24 295

原创 4D生成Advances in 4D Generation: A Survey

在2D和3D内容生成取得成功的基础上,结合时间维度的4D生成逐渐成为一个新兴且快速发展的研究方向。同时,分析4D生成技术的广泛应用,包括动态对象建模、场景生成、数字人合成、4D内容编辑以及自动驾驶等领域。最后,讨论4D生成面临的主要挑战,如数据获取、计算效率和时空一致性,并提出未来研究的潜在方向。论文作者:Qiaowei Miao,Kehan Li,Jinsheng Quan,Zhiyuan Min,Shaojie Ma,Yichao Xu,Yi Yang,Yawei Luo。作者单位:######

2025-04-01 09:23:18 388

原创 图像超分辨率The Power of Context: How Multimodality Improves Image Super-Resolution

4)方法:本文提出一种新的方法,利用多种模态中丰富的上下文信息(包括深度、分割、边缘和文本提示)来学习SISR的强大生成先验,采用扩散模型框架。引入了一个灵活的网络架构,有效融合多模态信息,能够容纳任意数量的输入模态,而无需对扩散过程进行显著修改。3)背景:单帧超分辨率任务面临细节恢复困难和感知质量保持难题,现有方法大多依赖有限的图像先验,导致结果质量不佳。5)结果:广泛的实验表明,该模型超越了最先进的生成式SISR方法,实现了更优越的视觉质量和保真度。

2025-04-01 09:20:59 266

原创 3D人体姿势估计(HPE)SCJD: Sparse Correlation and Joint Distillation for Efficient 3D Human Pose Estimation

4)方法:本文提出了Sparse Correlation and Joint Distillation(SCJD)框架,引入了Sparse Correlation Input Sequence Downsampling以减少学生网络输入的冗余,保留帧间关联性;3)背景:现有的3D人体姿势估计方法精度高但计算负担重、推断速度慢,知识蒸馏方法未能解决关节之间的空间关系和多帧输入中的时间相关性。5)结果:广泛的实验表明,SCJD实现了最先进的性能,并且已在。1)方向:3D人体姿势估计(HPE)

2025-04-01 09:16:10 483

原创 遥感目标检测(RSOD)LEGNet: Lightweight Edge-Gaussian Driven Network for Low-Quality Remote Sensing Image Ob

3)背景:在复杂的视觉环境中,遥感目标检测面临着巨大挑战。这些降解因素共同影响了检测模型中的特征区分度,导致三个关键问题:(1)降低的对比度阻碍了前景-背景分离,(2)边缘表示中存在结构不连续,(3)由于光照变化引起的模糊特征响应。5)结果:在四个RSOD基准数据集(DOTA-v1.0、v1.5、DIOR-R、FAIR1M-v1.0)和一个无人机视角数据集(VisDrone2019)上的综合评估表明,LEGNet在性能上实现了显著提升,且在五个基准数据集上达到了最先进的性能。2)应用:遥感图像领域。

2025-03-31 16:07:46 287

原创 交通标志检测YOLO-LLTS: Real-Time Low-Light Traffic Sign Detection via Prior-Guided Enhancement and Multi-B

5)结果:实验结果表明,YOLO-LLTS在多个数据集上都表现出色,优于之前的最佳方法,具体表现为在TT100K-night数据集上提高了2.7%的mAP50和1.6%的mAP50:95,在CNTSSS数据集上提高了1.3%的mAP50和1.9%的mAP50:95,并在CCTSDB2021数据集上也取得了优异的结果。3)背景:在低光条件下,交通标志的检测面临着显著的挑战,包括小物体特征不清晰、图像质量差(如噪声、低对比度和模糊),这会影响检测精度和效率。2)应用:低光条件下的交通标志检测。

2025-03-31 16:07:01 279

原创 自动驾驶Tracking Meets Large Multimodal Models for Driving Scenario Understanding

(track encoder),将3D追踪数据转换为视觉查询中的空间和时间提示,从而提供关键信息,同时避免处理长视频序列或庞大3D输入带来的计算负担。5)结果:实验证明该方法的有效性,相较基准模型在DriveLM-nuScenes基准测试中准确率提高了9.5%,ChatGPT得分提高了7.04个点,整体得分提高了9.4%,在DriveLM-CARLA上最终得分提高了3.7%。4)方法:本文提出了一种新型嵌入方法,将3D追踪信息编码到LMMs中,以增强模型对驾驶场景的时空理解。

2025-03-31 16:05:59 631

原创 视频异常检测(VAD)Language-guided Open-world Video Anomaly Detection

4)方法:为了解决这一问题,研究提出了一个新的开放世界视频异常检测范式,该范式支持通过用户提供的自然语言动态定义异常,并进行检测。此外,为了训练这种适应性模型,研究团队收集了PreVAD数据集,这是迄今为止最大且最具多样性的视频异常数据集,包含35,279个带有多级类别标签和描述的视频。3)背景:现有的视频异常检测方法假设异常的定义是固定不变的,这使得这些方法无法适应开放世界中的动态需求,而在实际应用中,异常的定义往往会随情境变化而变化。1)方向:视频异常检测(VAD)2)应用:视频异常检测(VAD)

2025-03-27 10:25:28 144

原创 目标检测Beyond RGB: Adaptive Parallel Processing for RAW Object Detection

RAM灵感来源于人类视觉系统的并行处理机制,与现有的学习型ISP方法不同,它通过并行应用多个ISP函数,而不是顺序执行,从而更全面地捕捉图像特征。5)结果:该方法不仅充分发挥了RAW传感器数据的潜力,还实现了任务特定的预处理,显著提高了目标检测性能。在多种RAW图像数据集上,尤其是在不同光照条件和动态范围下,该方法超越了基于RGB的方法,达到了最先进的检测效果。3)背景:传统的目标检测模型通常应用于标准的RGB图像,这些图像通过图像信号处理(ISP)管道进行处理,以增强传感器捕获的RAW图像。

2025-03-27 10:23:54 317

原创 图像分割HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model

4)方法:为了克服现有方法的局限,本文提出了分层掩膜标记器(HiMTok),该方法通过最多32个标记表示分割掩膜,并在去标记化过程中无需原始图像。此外,开发了一种三阶段训练方案,逐步学习分割和视觉能力,并采用分层掩膜损失进行有效的粗到细学习。目前的LMM驱动分割方法通常使用物体边界点表示掩膜或引入特殊的分割标记,这些标记的隐藏状态由分割模型解码,且需要原始图像作为输入。5)结果:广泛的实验表明,HiMTok方法在多个分割任务中实现了最先进的性能,同时还增强了视觉定位能力,并保持了整体的视觉理解能力。

2025-03-27 10:22:34 253

原创 低光照和水下视频的可视化增强Zero-TIG: Temporal Consistency-Aware Zero-Shot Illumination-Guided Low-light Video Enh

4)方法:本文提出了一种新的零样本学习方法Zero-TIG,旨在解决低光照和水下视频的可视化增强问题。该方法结合了Retinex理论和光流技术,具有低光照视频增强、去噪和时间一致性保持的能力。具体来说,Zero-TIG网络由两个主要模块组成:增强模块和时间反馈模块。5)结果:实验结果表明,Zero-TIG方法在无需成对训练数据的情况下,能够有效地增强低光照视频,保持时间一致性,并解决水下视频的颜色失真问题,证明其在真实场景中的应用潜力。3)背景:低光照和水下视频常常面临较差的可视性、低对比度和高噪声问题。

2025-03-26 11:09:08 505

原创 全参考图像质量评估(FR-IQA)Toward Generalized Image Quality Assessment: Relaxing the Perfect Reference Quality

4)方法:为了解决这一问题,研究者构建了一个大规模图像质量评估数据库——DiffIQA,包含约18万张图像,这些图像由基于扩散的图像增强方法生成,并且具有可调节的超参数。为进一步验证A-FINE的优势,研究者还构建了一个超分辨率图像质量评估基准(SRIQA-Bench),包含来自十种最先进的超分辨率方法的测试图像,并且有可靠的人工质量标注。3)背景:传统的全参考图像质量评估(FR-IQA)通常假设参考图像质量完美,但这一假设因现代成像系统的传感器和光学限制而不完全成立。2)应用:图像质量评估。

2025-03-26 11:08:07 483

原创 视频修复MTV-Inpaint: Multi-Task Long Video Inpainting

4)方法:本文提出了MTV-Inpaint,一个统一的多任务视频修复框架,能够处理传统的场景补全任务以及新对象插入任务。3)背景:现有的视频修复方法大多集中在场景补全(即填补缺失区域),而无法在可控的方式下向场景中插入新对象。尽管最近文本到视频(T2V)扩散模型取得了进展,但直接应用T2V模型进行修复存在完成与插入任务无法统一、缺乏输入可控性及无法处理长视频等问题,限制了其应用和灵活性。此外,MTV-Inpaint在多模态修复、对象编辑、移除、图像对象刷等派生应用中展示了出色的多功能性,并能够处理长视频。

2025-03-26 11:05:01 426

原创 机器人操控VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Roboti

4)方法:为了解决这一问题,提出了VidBot框架,该框架通过从现实世界的单目RGB人类视频中学习,能够实现零-shot的机器人操控。此外,VidBot引入了一个粗到精的功能学习模型,首先从像素空间识别粗略动作,然后利用扩散模型生成精细的交互轨迹,并根据粗略动作和测试时约束进行上下文感知的交互规划,从而显著提高了模型对新场景和新体现的泛化能力。5)结果:大量实验验证了VidBot的有效性,表明其在13个操控任务的零-shot设置中显著超越了其他同类方法,并能够在真实世界环境中无缝部署到各种机器人系统中。

2025-03-25 16:44:33 379

原创 3D车道检测Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

3)背景:单目3D车道检测是自动驾驶中的基础任务,尽管稀疏点方法在复杂车道几何中降低了计算负担并保持了较高的精度,但现有方法未能充分利用车道的几何结构,导致其在车道几何表示和模型设计上存在不足。例如,在总体F1分数上,Persformer提高了4.4分,Anchor3DLane提高了3.2分,LATR提高了2.8分。(EP-head),通过在端点添加拼接距离,使得模型即使在预设点较少的情况下,也能预测出更完整的车道表示,解决了现有方法的局限性。同时,为了让现有模型适应这一策略,提出了。

2025-03-25 16:43:16 392

原创 多目标跟踪(MOT)Omnidirectional Multi-Object Tracking

4)方法:为解决这些问题,提出了OmniTrack框架,集成了以下几个关键模块:(1)Tracklet Management模块,通过引入时间线索来增强跟踪能力;5)结果:在公共的JRDB数据集和新提出的QuadTrack基准数据集上的广泛实验表明,OmniTrack框架实现了最先进的性能。3)背景:传统的多目标跟踪算法通常针对有限视野的针孔图像进行优化,这使得它们在全景图像中效果较差。此外,全景图像常存在分辨率损失、几何变形和不均匀光照等畸变,导致现有MOT方法难以直接适应这些图像,进而影响性能。

2025-03-25 16:39:46 441

原创 风格迁移ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer

4)方法:本文提出 ConsisLoRA,一种增强内容与风格一致性的 LoRA 方案。此外,提出两步训练策略,使模型能够解耦学习参考图像的内容和风格。此外,还提出了一种推理引导方法,使推理过程中可以连续控制内容和风格的强度。3)背景:风格迁移旨在将参考图像的风格转移到目标图像的内容上。基于 LoRA 的方法在单张图像的风格捕获方面取得了进展,但仍然面临内容不一致、风格对齐不良和内容泄漏等问题。5)结果:定性和定量实验表明,ConsisLoRA 在内容和风格一致性上有显著提升,并有效减少了内容泄漏问题。

2025-03-24 09:43:56 403

原创 视频质量评估(VQA)KVQ: Boosting Video Quality Assessment via Saliency-guided Local Perception

框架通过融合窗口注意力(FWA)提取视觉显著性并分配注意力,同时引入局部感知约束(LPC),减轻区域纹理感知对邻域区域的依赖。为了评估局部感知,研究者还建立了一个新的带有区域标注的局部感知视觉质量(LPVQ)数据集。3)背景:视频质量评估旨在预测视频的感知质量,但由于运动模糊或特定失真等因素,视频不同区域的质量差异较大。虽然区域质量感知对全局质量评估有帮助,但由于标注区域质量的成本高,且缺乏相关数据集的真实数据,导致局部感知的利用变得复杂。

2025-03-24 09:42:43 404

原创 开放词汇多目标跟踪:OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer

4)方法:本文提出 OVTR(End-to-End Open-Vocabulary Multiple Object Tracking with Transformer),这是首个端到端的开放词汇多目标跟踪模型,能够同时建模运动、外观和类别信息。3)背景:开放词汇多目标跟踪的目标是在训练时泛化到未见类别,使其适用于各种现实场景。5)结果:实验结果表明,该方法在开放词汇多目标跟踪(MOT)基准测试上优于现有方法,同时具备更快的推理速度,并显著减少预处理需求。1)方向:开放词汇多目标跟踪。

2025-03-24 09:41:37 299

原创 虚拟试衣(Virtual Try-On, VITON):MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input

4)方法:本文提出了一种无掩码虚拟试穿框架(MF-VITON),采用两阶段流程:第一阶段:利用现有的基于掩码的VITON模型生成高质量数据集,该数据集包含多样化的、真实的人物-服装配对图像,并通过不同背景增强数据,以模拟真实世界场景。第二阶段:在生成的数据集上微调预训练的基于掩码的VITON模型,使其能够在没有掩码的情况下完成服装转移,同时保持服装的纹理和形状特征。3)背景:现有的虚拟试穿方法依赖用户提供的掩码,但由于掩码质量不佳,会导致复杂度增加和性能下降。

2025-03-23 10:45:00 305

原创 场景文本编辑:Recognition-Synergistic Scene Text Editing

4)方法:本文提出一种新的场景文本编辑方法——Recognition-Synergistic Scene Text Editing(RS-STE),通过充分利用文本识别与编辑的内在协同作用来改进文本编辑过程。3)背景:传统的场景文本编辑方法通过显式地将风格和内容从源图像中分离,然后将风格与目标内容融合,并使用预训练的识别模型确保内容一致性。5)结果:实验证明,RS-STE在合成数据集和真实世界数据集上都取得了最先进的性能,并进一步证明了通过利用生成的难例来提升下游识别任务性能的有效性。Baidu Inc.

2025-03-23 09:30:00 229

原创 机器人操控VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Roboti

4)方法:为了解决这一问题,提出了VidBot框架,该框架通过从现实世界的单目RGB人类视频中学习,能够实现零-shot的机器人操控。此外,VidBot引入了一个粗到精的功能学习模型,首先从像素空间识别粗略动作,然后利用扩散模型生成精细的交互轨迹,并根据粗略动作和测试时约束进行上下文感知的交互规划,从而显著提高了模型对新场景和新体现的泛化能力。5)结果:大量实验验证了VidBot的有效性,表明其在13个操控任务的零-shot设置中显著超越了其他同类方法,并能够在真实世界环境中无缝部署到各种机器人系统中。

2025-03-23 09:00:00 194

原创 图像超分辨率CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution

4)方法:为了解决这些问题,提出了一种轻量化的内容感知标记聚合网络(CATANet)。具体而言,提出了一种高效的内容感知标记聚合模块,用于聚合长程内容相似的标记。3)背景:尽管基于Transformer的方法在图像超分辨率任务中表现出了令人印象深刻的性能,但其计算复杂度随着空间分辨率的增加呈平方级增长。5)结果:实验结果表明,与基于聚类的最新方法SPIN相比,CATANet在图像超分辨率任务中表现优越,最大PSNR(峰值信噪比)提升了0.33dB,推理速度几乎是其两倍,证明了该方法在性能和效率上的优势。

2025-03-22 09:15:00 227

原创 3D车道检测:Rethinking Lanes and Points in Complex Scenarios for Monocular 3D Lane Detection

3)背景:单目3D车道检测是自动驾驶中的基础任务,尽管稀疏点方法在复杂车道几何中降低了计算负担并保持了较高的精度,但现有方法未能充分利用车道的几何结构,导致其在车道几何表示和模型设计上存在不足。例如,在总体F1分数上,Persformer提高了4.4分,Anchor3DLane提高了3.2分,LATR提高了2.8分。(EP-head),通过在端点添加拼接距离,使得模型即使在预设点较少的情况下,也能预测出更完整的车道表示,解决了现有方法的局限性。同时,为了让现有模型适应这一策略,提出了。

2025-03-22 08:45:00 519

原创 视频生成:AR-Diffusion: Asynchronous Video Generation with Auto-Regressive Diffusion

该模型结合了自回归模型和扩散模型的优势,支持灵活的异步视频生成。具体来说,在训练和推理过程中,采用扩散方法逐渐破坏视频帧,从而减少训练和推理阶段之间的差异。此外,受自回归生成的启发,模型对每帧的破坏步骤施加了非递减约束,确保早期帧比后续帧保持更清晰。3)背景:现有的视频生成方法主要依赖于异步自回归模型或同步扩散模型。5)结果:通过大量实验验证,该方法在四个具有挑战性的基准测试中表现出色,取得了竞争力和最先进的结果,证明了其方法的优越性。,该方法可以生成长度不固定的视频,同时保持时间上的一致性。

2025-03-22 08:30:00 329

蓝桥杯 HDOJ.zip

蓝桥杯源码

2025-04-08

蓝桥杯练习系统题解.zip

蓝桥杯源码

2025-04-08

Algorithm-practice for 蓝桥杯&ACM.zip

蓝桥杯源码

2025-04-08

日常蓝桥杯训练、剑指offer....zip

蓝桥杯源码

2025-04-08

蓝桥杯Acwing刷题.zip

蓝桥杯源码

2025-04-08

蓝桥杯往届试题刷题记录(更新ing).zip

蓝桥杯源码

2025-04-08

算法很美-算法四-蓝桥杯训练集.zip

蓝桥杯源码

2025-04-08

蓝桥杯单片机代码模版.zip

蓝桥杯源码

2025-04-08

备战蓝桥杯.zip

蓝桥杯源码

2025-04-08

蓝桥杯官网试题.zip

蓝桥杯源码

2025-04-08

蓝桥杯练习系统例题.zip

蓝桥杯源码

2025-04-08

蓝桥杯_1.zip

蓝桥杯源码

2025-04-08

蓝桥杯训练题.zip

蓝桥杯源码

2025-04-08

蓝桥杯大赛题目练习.zip

蓝桥杯源码

2025-04-08

蓝桥杯-2021年学习用.zip

蓝桥杯源码

2025-04-08

蓝桥杯第六届试题,温度记录器.zip

蓝桥杯源码

2025-04-08

蓝桥杯_10.zip

蓝桥杯源码

2025-04-08

-yum- 为了准备来年的蓝桥杯个人赛的一些常考的算法模板.zip

蓝桥杯源码

2025-04-08

蓝桥杯_练习系统.zip

蓝桥杯源码

2025-04-08

蓝桥杯Java组备赛资料.zip

蓝桥杯源码

2025-04-08

毕业设计:基于postgresql的图书销售系统,涵盖典型的SQL操作.zip

毕业设计:基于postgresql的图书销售系统,涵盖典型的SQL操作

2025-04-10

酒店管理系统,含有sql数据库信息,可直接导入 B-S架构,采用JSP+Servlet+HTML5,.zip

酒店管理系统,含有sql数据库信息,可直接导入。B-S架构,采用JSP+Servlet+HTML5

2025-04-10

2025年信息系统项目管理师(软考高级)备考资源库(刷题软件+真题+机考模拟+其他资料) .zip

2025年信息系统项目管理师(软考高级)备考资源库(刷题软件+真题+机考模拟+其他资料)

2025-04-10

软考中级教程-软件设计师课本+app+真题.zip

软考中级教程-软件设计师课本+app+真题

2025-04-10

用C#和数据库写的员工管理系统.zip

mysql

2025-04-08

这是我大三上为准备蓝桥杯比赛练习的题目,都是历年的真题.zip

蓝桥杯

2025-04-08

准备第十二届蓝桥杯嵌入式的代码.zip

蓝桥杯

2025-04-08

准备蓝桥杯国赛,学习算法.zip

蓝桥杯

2025-04-08

作者在大一时参加的蓝桥杯校内模拟赛做题记录.zip

蓝桥杯

2025-04-08

二级 MySQL数据库程序设计.rar

计算机二级

2025-04-08

(WIP) 第 14 届蓝桥杯国赛 Web 题解 (2023 年 6 月 10 日).zip

蓝桥杯源码

2025-04-08

蓝桥杯_5.zip

蓝桥杯源码

2025-04-08

kuangbin 带你飞系列(及部分CCF、蓝桥杯试题)个人题解.zip

蓝桥杯源码

2025-04-08

蓝桥杯题库爬虫.zip

蓝桥杯源码

2025-04-08

蓝桥杯比赛代码.zip

蓝桥杯源码

2025-04-08

参加蓝桥杯期间刷的java算法题.zip

蓝桥杯源码

2025-04-08

蓝桥杯试题集自动抓取Chrome扩展.zip

蓝桥杯源码

2025-04-08

蓝桥杯历年真题.zip

蓝桥杯源码

2025-04-08

蓝桥杯历届试题汇总.zip

蓝桥杯源码

2025-04-08

蓝桥杯练习训练(Java版).zip

蓝桥杯源码

2025-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除