论文合集
文章平均质量分 83
亦答AI工具
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
ECCV2024论文解析|CityGaussian Real-time High-quality Large-Scale Scene Rendering with
本文提出了一种名为CityGaussian (CityGS) 的新方法,旨在解决大规模三维场景重建和实时渲染中的挑战。通过采用分治训练方法和细节层次(LoD)策略,CityGS能够高效地训练和渲染大规模的3D高斯散点(3DGS)。该方法利用全局场景先验和自适应训练数据选择,实现了高效的训练和无缝融合。基于融合的高斯原语,CityGS通过压缩生成不同的细节级别,并通过块级细节选择和聚合策略实现快速渲染。大量实验结果表明,CityGS在大规模场景中达到了最先进的渲染质量,能够在不同尺度下实现一致的实时渲染。原创 2025-03-21 15:25:03 · 958 阅读 · 0 评论 -
ECCV2024论文解析|Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors-water-merged
本文提出了一种新的预训练范式FreeReal,旨在通过结合大规模标记合成数据(LSD)和无标签真实数据(URD)来提升场景文本检测器的性能。现有的文本检测方法通常依赖于大量真实数据进行训练,但由于缺乏标注的真实图像,导致合成到真实域的差距限制了检测器的性能。FreeReal通过一种基于字形的混合机制(GlyphMix)将合成图像的字符结构嵌入到真实图像中,从而生成带有部分标注的真实图像。原创 2025-03-21 15:24:52 · 606 阅读 · 0 评论 -
ECCV2024论文解析|FSGS Real-Time Few-shot View Synthesis using Gaussian Splatting-water-merged
本文提出了一种基于3D高斯散射的少样本视图合成框架FSGS,旨在解决从有限观测中进行新颖视图合成的挑战。FSGS通过创新的邻近引导高斯反池化方法,能够在稀疏视图设置下实现实时、逼真的合成。该方法通过在现有高斯之间策略性地放置新高斯,增强了场景的细节表现。为了解决训练视图有限时可能出现的过拟合和纹理过于平滑的问题,FSGS引入了虚拟视图合成和几何正则化策略。实验结果表明,FSGS在多个数据集上实现了卓越的渲染质量,并且推理速度比现有最先进的稀疏视图合成方法快2000倍以上,展示了其在实际应用中的潜力。原创 2025-03-21 15:24:42 · 1022 阅读 · 0 评论 -
ECCV2024论文解析|Fully Sparse 3D Occupancy Prediction-water-merged
本文提出了一种新颖的全稀疏占用网络SparseOcc,旨在解决自动驾驶中的三维占用率预测问题。传统方法通常构建密集的三维体积,忽视了场景的稀疏性,导致计算成本高昂。SparseOcc通过仅使用摄像头输入重建稀疏的三维表示,并通过稀疏查询从该表示中预测语义和实例占用。为此,设计了一种掩码引导的稀疏采样方法,使稀疏查询能够以完全稀疏的方式与二维特征交互,从而避免了昂贵的密集特征或全局注意力。此外,本文还提出了一种新的评估指标RayIoU,以解决传统体素级mIoU标准在深度轴上的不一致惩罚问题。原创 2025-03-21 15:24:32 · 775 阅读 · 0 评论 -
ECCV2024论文解析|MVSplat Efficient 3D Gaussian Splatting from Sparse Multi-View Images-water-merged
本文提出了一种高效的模型MVSplat,该模型能够从稀疏的多视图图像中预测干净的前馈3D高斯分布。MVSplat通过构建代价体表示来准确定位高斯中心,利用跨视图特征相似性为深度估计提供几何线索。该模型在大型RealEstate10K和ACID基准测试中表现出色,具有最快的前馈推理速度(22fps),并且与最新的pixelSplat方法相比,MVSplat使用的参数减少了10倍,推理速度提高了2倍以上,同时提供了更高的外观和几何质量以及更好的跨数据集泛化能力。原创 2025-03-21 15:24:22 · 915 阅读 · 0 评论 -
ECCV2024论文解析|NeRF-MAE Masked AutoEncoders for Self-Supervised 3D Representation Learning for
本文提出了一种名为NeRF-MAE的自监督学习框架,旨在增强神经辐射场(NeRF)中的三维表示学习。该方法利用姿态RGB图像,通过掩码自动编码器生成有效的三维表示。NeRF-MAE采用标准的3D Vision Transformers,利用NeRF的辐射和密度网格作为输入模态,进行掩码自监督学习。通过对随机掩盖的网格进行重建,模型能够学习完整场景的语义和空间结构。原创 2025-03-21 15:24:13 · 984 阅读 · 0 评论 -
ECCV2024论文解析|PosFormer Recognizing Complex Handwritten Mathematical Expression with
本文提出了一种新的手写数学表达式识别(HMER)方法,称为位置森林变换器(PosFormer)。该方法通过联合优化表达式识别和位置识别两个任务,显式地实现位置感知的符号特征表示学习。PosFormer设计了一个位置森林结构,将数学表达式建模为森林结构,并解析符号之间的相对位置关系。该方法无需额外的标注工作,且在推理阶段不会增加延迟或计算成本。原创 2025-03-21 15:24:00 · 1051 阅读 · 0 评论 -
ECCV2024论文解析|VideoMamba State Space Model for Efficient Video Understanding-water-merged
本文提出了VideoMamba,一个创新的状态空间模型,旨在解决视频理解中的局部冗余和全局依赖问题。VideoMamba克服了现有3D卷积神经网络和视频Transformer的局限性,其线性复杂度算子使得高分辨率长视频的长期建模变得高效。通过广泛的评估,VideoMamba展现了四大核心能力:在视觉领域的可扩展性,无需大量数据集预训练;对短期动作的敏感性,即使在细微运动差异下也能准确识别;在长期视频理解方面的优越性,显著超越传统特征模型;与其他模态的兼容性,展现出在多模态环境中的鲁棒性。原创 2025-03-21 15:23:46 · 521 阅读 · 0 评论 -
ECCV2024论文解析|Zero-Shot Event-Intensity Asymmetric Stereo via Visual Prompting from Image
本文提出了一种零样本事件强度非对称立体视觉框架(ZEST),旨在通过结合事件相机和帧基传感器来实现动态和具有挑战性环境中的稳健3D感知。现有方法常因数据集规模有限和场景多样性不足而导致过拟合和泛化能力差。为了解决这些问题,ZEST利用在多样化图像数据集上预训练的单目深度估计和立体匹配模型,并引入视觉提示技术以对齐帧和事件的表示,从而无需额外训练即可使用现成的立体模型。此外,ZEST还引入了单目线索引导的视差细化模块,通过整合单目深度信息来提高在静态和动态区域的鲁棒性。原创 2025-03-21 15:23:33 · 919 阅读 · 0 评论 -
ECCV2024论文解析|ZigMa A DiT-style Zigzag Mamba Diffusion Model-water-merged
本文提出了一种新的扩散模型Zigzag Mamba(ZigMa),旨在解决传统扩散模型在可扩展性和计算复杂度方面的挑战。ZigMa利用名为Mamba的状态空间模型的长序列建模能力,扩展其在视觉数据生成中的应用。研究中指出了当前Mamba视觉方法的一个关键问题,即缺乏对空间连续性的考虑。基于此,Zigzag Mamba作为一种简单、即插即用的解决方案,展示了在速度和内存利用率方面的显著改进。原创 2025-03-21 15:23:14 · 646 阅读 · 0 评论 -
Neurlps2024论文解析|AlphaPruning Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise
本文提出了一种新的剪枝方法AlphaPruning,旨在通过重尾自正则化(HT-SR)理论改进大型语言模型(LLMs)的逐层剪枝。现有的LLM剪枝方法通常在各层之间分配统一的剪枝比率,限制了剪枝的整体能力。AlphaPruning利用权重矩阵的经验谱密度(ESD)形状,设计出更为合理的逐层稀疏比率。研究表明,不同层的可剪枝性存在显著差异,AlphaPruning通过分配较低的稀疏性给训练更好的层,从而在保持模型性能的同时实现高达80%的稀疏性。原创 2025-03-12 14:19:21 · 995 阅读 · 0 评论 -
ECCV论文合集解析|3D Small Object Detection with Dynamic Spatial Pruning-water-merged
本文提出了一种高效的特征剪枝策略,旨在解决三维小物体检测中的挑战。传统的三维物体检测方法在处理小物体时表现不佳,主要由于小物体的点云数量少,几何信息弱。尽管提高特征表示的空间分辨率可以改善小物体的检测性能,但随之而来的计算开销往往难以承受。为此,本文提出了一种名为DSPDet3D的多级三维检测器,利用动态空间剪枝(DSP)策略,专注于小物体区域,从而减少冗余计算。原创 2025-03-12 14:18:21 · 1029 阅读 · 0 评论 -
ECCV论文合集解析|4D Contrastive Superflows are Dense 3D Representation Learners-water-merged
本文提出了一种名为SuperFlow的新框架,旨在通过利用连续的LiDAR-相机对来建立时空预训练目标,以提高自动驾驶中的3D感知能力。SuperFlow的创新之处在于其两个关键设计:1)密集到稀疏一致性正则化,增强了特征学习过程中对点云密度变化的鲁棒性;2)基于流的对比学习模块,旨在从现成的传感器校准中提取有意义的时间线索。为了进一步提高学习效率,SuperFlow还引入了即插即用的视图一致性模块,以增强从相机视图中提取的知识的对齐。原创 2025-03-12 14:18:12 · 775 阅读 · 0 评论 -
ECCV论文合集解析|AnatoMask Enhancing Medical Image Segmentation with Reconstruction-guided Self-masking
本文提出了一种名为AnatoMask的新型掩码图像建模(MIM)方法,旨在通过重建损失动态识别和掩蔽解剖学上重要的区域,从而提高3D医学图像分割的预训练效率。由于标记数据的稀缺,自监督学习(SSL)在医学图像分析中受到广泛关注。传统的MIM方法依赖于大量训练数据,并且随机掩蔽可能忽略关键的解剖区域,导致预训练效率降低。AnatoMask采用自蒸馏方法,模型不仅学习如何找到重要区域进行掩蔽,还学习如何重建这些区域。原创 2025-03-12 14:18:03 · 744 阅读 · 0 评论 -
ECCV论文合集解析|Brain-ID Learning Contrast-agnostic Anatomical Representations for Brain Imaging
本文提出了Brain-ID,一个用于脑影像的解剖学表示学习模型,旨在解决现有学习方法在未校准模态(如磁共振成像)中的泛化能力不足的问题。Brain-ID通过“轻度到重度”的个体内生成方法,能够适应个体特有的脑解剖结构,无论图像的外观(如对比度、变形、分辨率、伪影)如何。该模型完全基于合成数据训练,仅通过一层即可快速适应多种下游任务。实验结果表明,Brain-ID在不同MRI模态和CT的多个任务中均表现出最先进的性能,尤其在低分辨率和小数据集上保持了良好的表现。原创 2025-03-12 14:17:55 · 788 阅读 · 0 评论 -
ECCV论文合集解析|BrushNet A Plug-and-Play Image Inpainting Model with Decomposed Dual-Branch Diffusion
本文提出了BrushNet,一个新颖的即插即用双分支图像修复模型,旨在通过将掩码图像特征和噪声潜在变量分为独立分支来提高图像修复的质量。尽管现有的扩散模型在图像修复中取得了一定进展,但仍面临语义不一致和图像质量下降的问题。BrushNet通过分层整合掩码图像信息,显著降低了模型的学习负担,并保证了图像修复结果的一致性和质量。本文还引入了BrushData和BrushBench,以促进基于分割的修复训练和性能评估。原创 2025-03-12 14:17:45 · 675 阅读 · 0 评论 -
ECCV论文合集解析|C2C Component-to-Composition Learning for Zero-Shot Compositional Action Recognition
本文提出了一种新颖的零样本组合动作识别(ZS-CAR)任务,旨在解决机器识别由先前观察到的动词和物体组成的未见动作的能力。为此,研究者们构建了一个新的基准数据集Something-composition(Sth-com),并提出了一种组件到组合(C2C)学习方法。C2C方法包括独立的组件学习模块和组合推理模块,旨在解决已见和未见组合之间的组件变化问题。实验结果表明,所提出的框架在组合泛化能力上显著优于现有方法,并创造了新的最先进水平。原创 2025-03-12 14:17:34 · 776 阅读 · 0 评论 -
ECCV论文合集解析|Context-Guided Spatial Feature Reconstruction for Efficient Semantic Segmentatio
本文提出了一种高效且具有竞争力的语义分割框架CGRSeg,基于上下文引导的空间特征重建。该框架设计了一个矩形自校准模块(RCM),用于空间特征重建和金字塔上下文提取,能够在水平和垂直方向上捕获全局上下文,从而明确建模矩形关键区域。此外,提出了一种轻量级的动态原型引导头(DPG),通过显式的类别嵌入来改善前景物体的分类。原创 2025-03-12 14:16:39 · 643 阅读 · 0 评论 -
CVPR2025论文解析|Efficient Diffusion as Low Light Enhancer-water-merged
本文提出了一种高效的扩散框架,旨在解决基于扩散的弱光图像增强(LLIE)中的计算负担问题。现有的加速方法往往导致性能显著下降,本文识别了导致性能下降的两个主要因素:拟合误差和推理差距。为此,作者设计了反射感知轨迹细化(RATR)模块,通过线性外推不正确的评分函数来减轻拟合误差,并将高斯流转移到反射感知残差空间以减少推理差距。随后,提出了反射感知扩散与蒸馏轨迹(ReDDiT),一个高效灵活的蒸馏框架,能够在仅需2步的情况下实现与现有方法相当的性能,并在8步或4步中建立新的最先进(SOTA)结果。原创 2025-03-12 13:58:36 · 717 阅读 · 0 评论 -
CVPR2025论文解析|Edit Away and My Face Will not Stay Personal Biometric Defense against Malicious
本文提出了一种名为FACELOCK的新方法,旨在保护个人图像免受恶意生成式编辑的影响。随着扩散模型的进步,图像编辑变得更加容易,但也带来了隐私和身份安全的重大伦理问题。现有的图像保护方法主要依赖于生成对抗性扰动来抵消编辑效果,但往往表现出不稳定性。FACELOCK的创新之处在于,它并不试图阻止编辑的应用,而是通过优化对抗性扰动来确保编辑后原始生物识别信息(如面部特征)被破坏或显著改变,从而使编辑后的图像在生物识别上无法识别。原创 2025-03-12 13:58:22 · 709 阅读 · 0 评论 -
CVPR2025论文解析|DynRefer Delving into Region-level Multimodal Tasks via Dynamic Resolution
本文提出了一种名为DynRefer的方法,旨在通过模仿人类视觉认知的动态分辨率特性,提升区域级多模态任务的准确性。现有方法在处理不同任务时未能考虑分辨率适应性,导致语言描述的精确性不足。DynRefer通过随机对齐多模态任务的语言描述与多分辨率图像,在训练过程中构建嵌套视图,并在推理时选择合适的区域表示,从而更好地匹配人类的偏好。实验结果表明,DynRefer在区域级字幕、开放词汇区域识别和属性检测等多项任务中均取得了最先进的结果,展示了其强大的任务适应性和表示能力。原创 2025-03-12 13:58:10 · 957 阅读 · 0 评论 -
CVPR2025论文解析|DepthCrafter Generating Consistent Long Depth Sequences for Open-world Videos
本文提出了DepthCrafter,一种创新的视频深度估计方法,旨在为开放世界视频生成时间一致的长深度序列,且无需额外的信息如相机姿态或光流。DepthCrafter通过从预训练的图像到视频扩散模型中训练视频到深度模型,采用精心设计的三阶段训练策略,能够生成长度可变的深度序列,最长可达110帧,并从真实和合成数据集中提取精确的深度细节和丰富的内容多样性。此外,DepthCrafter还提出了一种推理策略,通过分段估计和无缝拼接来处理极长的视频。原创 2025-03-12 13:57:57 · 818 阅读 · 0 评论 -
CVPR2025论文解析|CityWalker Learning Embodied Urban Navigation from Web-Scale Videos-water-merged
本文提出了CityWalker,一个基于数据驱动的方法,旨在解决具身智能体在动态城市环境中的导航问题。通过利用来自网络的2000小时城市步行和驾驶视频,CityWalker能够学习复杂的导航策略,处理多样化的挑战和关键场景。该模型通过简单且可扩展的数据处理管道提取动作监督,支持大规模模仿学习,避免了昂贵的标注成本。实验结果表明,基于大规模多样化数据集的训练显著提高了导航性能,超越了现有方法。原创 2025-03-12 13:57:44 · 1008 阅读 · 0 评论 -
CVPR2025论文解析|Cinemo Consistent and Controllable Image Animation with Motion Diffusion Models
本文提出了一种新颖的图像动画方法Cinemo,旨在通过运动扩散模型实现更好的运动可控性、时序一致性和平滑性。Cinemo采用三种有效策略:在训练阶段,重点学习运动残差的分布,而非直接预测后续帧;引入基于结构相似性指数的策略,以实现对运动强度的更好控制;在推理阶段,采用基于离散余弦变换的噪声细化技术,以减轻突发运动变化。实验结果表明,Cinemo在多个指标上超越了现有的最先进方法,提供了更简单且精确的用户可控性,适用于图像动画、视频编辑和运动转移等应用。原创 2025-03-12 13:57:33 · 484 阅读 · 0 评论 -
CVPR2025论文解析|Auto-Encoded Supervision for Perceptual Image Super-Resolution-water-merged
本文提出了一种新的感知超分辨率(SR)方法,旨在解决基于生成对抗网络(GAN)的SR框架中像素级L损失(L)所带来的保真度问题。传统方法通常通过乘以小比例因子或使用低通滤波器来规避模糊现象,但这些方法未能有效解决导致模糊的根本因素。本文提出的自编码监督最优惩罚损失(AESOP)通过在自编码器(AE)空间中计算损失,能够有效区分保真度偏差和感知方差,从而在保持感知质量的同时,优化重建指导。实验结果表明,AESOP在感知SR任务中表现出显著的性能提升。原创 2025-03-12 13:57:18 · 1046 阅读 · 0 评论 -
ECCV2024论文解析|Representing Topological Self-Similarity Using Fractal Feature Maps for Accurate
本文提出了一种新方法,通过引入分形特征图(FFM)来提高细长管状结构的分割精度。管状结构在生物学、医学和遥感等领域具有重要意义,但其复杂的拓扑和几何特性使得分割任务面临挑战。研究中,作者将分形维数(FD)扩展到像素级,利用滑动窗口技术生成FFM,并将其作为深度学习模型的额外输入和损失函数的权重,以增强分割性能。此外,作者还扩展了U-Net架构,加入边缘解码器和骨架解码器,以提高分割的边界精度和骨架连续性。通过在五个管状结构数据集上的广泛实验,验证了该方法的有效性和鲁棒性。原创 2025-03-11 10:29:42 · 972 阅读 · 0 评论 -
ECCV2024论文解析|PDiscoFormer Relaxing Part Discovery Constraints with Vision Transformers
本文提出了一种新方法PDiscoFormer,旨在通过视觉Transformer放宽部件发现的几何约束。传统的部件发现方法通常假设发现的部件应为小而紧凑的形状,这在某些情况下是有效的,但在许多细粒度分类任务中并不适用。PDiscoFormer利用自监督的DINOv2 ViT模型,采用总变差(TV)先验,允许多个任意大小的连通组件,从而显著提高了部件发现的性能。原创 2025-03-11 10:29:27 · 668 阅读 · 0 评论 -
ECCV2024论文解析|GiT Towards Generalist Vision Transformer through Universal Language Interface
本文提出了一种名为GiT的简单而有效的框架,旨在通过通用语言接口将多层Transformer架构应用于各种视觉任务。GiT仅使用原始的视觉Transformer(ViT),并通过设计一个通用语言接口来统一图像级理解、稀疏感知和密集预测等多种视觉任务。与传统的视觉任务模型不同,GiT不需要特定的模块,展现出显著的架构简化。该模型在五个代表性基准上进行联合训练,取得了强大的通用性能,并在多个任务上实现了显著的零样本和少样本表现。GiT的设计理念有望缩小视觉与语言之间的架构差距,推动通用视觉模型的发展。原创 2025-03-11 10:29:12 · 404 阅读 · 0 评论 -
ECCV2024论文解析|GalLoP Learning Global and Local Prompts for Vision-Language Models-water-merged
本文提出了一种新的提示学习方法GalLoP,旨在通过利用全局和局部视觉特征来学习多样化的提示,以提高视觉语言模型(VLMs)在少样本图像分类中的表现。尽管现有的提示学习方法在分类精度和鲁棒性之间存在权衡,GalLoP通过引入“提示丢弃”技术和多尺度策略,增强了局部特征的视觉-文本对齐,进而提高了模型的准确性和鲁棒性。实验结果表明,GalLoP在11个不同的数据集上超越了现有的提示学习方法,并在领域泛化和分布外(OOD)检测中表现出色,显示出其强大的泛化能力和鲁棒性。原创 2025-03-11 10:28:37 · 827 阅读 · 0 评论 -
ECCV2024论文解析|FairDomain Achieving Fairness in Cross-Domain Medical Image Segmentation and
本文提出了FairDomain,一个针对跨域医学图像分割和分类中算法公平性问题的系统性研究。随着医疗AI的快速发展,确保不同人群获得公平的医疗结果变得至关重要。尽管已有研究关注算法公平性,但在领域迁移的背景下,公平性问题仍未得到充分探讨。FairDomain采用最先进的领域适应(DA)和泛化(DG)算法,分析不同域之间的偏差转移,并引入了一种新颖的公平身份注意力(FIA)模块,通过自注意力机制根据人口属性调整特征重要性,从而提高公平性。原创 2025-03-11 10:28:00 · 824 阅读 · 0 评论 -
ECCV2024论文解析|Every Pixel Has its Moments Ultra-High-Resolution Unpaired Image-to-Image
本文提出了一种新的密集归一化(Dense Normalization, DN)层,旨在解决超高分辨率(UHR)非配对图像到图像(I2I)转换中的平铺伪影问题。现有方法在减少伪影和保持颜色对比度之间存在权衡,主要依赖于全局统计数据。DN层通过估计像素级统计矩,显著减少了平铺伪影,同时保留了局部颜色和色调对比度。为了解决计算需求,本文还提出了一种高效的插值算法和并行策略,使DN层能够在单次传递中运行。原创 2025-03-11 10:27:48 · 625 阅读 · 0 评论 -
ECCV2024论文解析|DVIS-DAQ Improving Video Segmentation via Dynamic Anchor Queries-water-merged
本文提出了一种新的视频分割方法,称为动态锚点查询(DAQ),旨在改善现有视频分割技术在处理新出现和消失物体时的性能。尽管现代视频分割方法在跟踪持续出现的物体方面表现良好,但在处理现实世界中常见的新出现和消失物体时却存在显著的性能不足。为了解决这一问题,作者引入了动态生成的锚点查询,以缩短锚点查询与目标查询之间的过渡差距。此外,作者还提出了一种查询级别的物体出现与消失模拟(EDS)策略,以进一步提升DAQ的潜力。原创 2025-03-11 10:27:36 · 461 阅读 · 0 评论 -
ECCV2024论文解析|Cross-Domain Few-Shot Object Detection via Enhanced Open-Set Object Detector
本文研究了跨域小样本目标检测(CD-FSOD)这一挑战性任务,旨在为新领域开发准确的目标检测器,尤其是在标记样本极少的情况下。尽管基于Transformer的开放集检测器(如DE-ViT)在传统的小样本目标检测中表现良好,但其在CD-FSOD中的泛化能力仍不明确。为此,本文提出了新的评估指标,包括风格、类间方差(ICV)和不可定义边界(IB),并建立了CD-FSOD基准,揭示了现有方法在跨域泛化中的不足。原创 2025-03-11 10:27:24 · 1062 阅读 · 0 评论 -
ECCV2024论文解析|ControlCap Controllable Region-level Captioning-water-merged
本文提出了一种可控区域级标题生成方法(ControlCap),旨在解决区域级标题生成中的字幕退化问题。该问题指的是预训练的多模态模型倾向于生成最频繁的字幕,而忽略了不太频繁的字幕。ControlCap通过引入控制词来划分字幕空间为多个子空间,从而增加生成不常见字幕的机会。该方法利用判别模块生成控制词,并通过交互式控制词增强模型的泛化能力。实验结果表明,ControlCap在Visual Genome和RefCOCOg数据集上分别提高了21.6和2.2的CIDEr分数,显著优于现有技术。原创 2025-03-11 10:27:11 · 697 阅读 · 0 评论 -
CVPR2025论文解析|Fast3R Towards 3D Reconstruction of 1000+ Images in One Forward Pass-water
本文提出了一种新的多视角三维重建框架Fast3R,旨在解决传统方法在处理多张无序、无姿态图像时的效率和准确性问题。与现有的DUSt3R方法不同,Fast3R采用基于Transformer的架构,能够在一次前向传递中并行处理超过1000张图像,避免了迭代对齐的需求。通过对相机姿态估计和三维重建的广泛实验,Fast3R展示了在推理速度和误差累积方面的显著改进,成为多视角应用的可靠替代方案。原创 2025-03-11 10:21:04 · 1061 阅读 · 0 评论 -
CVPR2025论文解析|From Poses to Identity Training-Free Person Re-Identification via Feature
本文提出了一种无训练的特征集中化框架(Pose2ID),旨在提高行人重识别(ReID)任务中的身份表示。该框架通过聚合同一身份的特征来减少个体噪声,增强身份表示的稳定性。具体而言,本文引入了两个关键组件:身份引导行人生成(IPG)和邻域特征集中化(NFC)。IPG利用身份特征生成多姿态的高质量图像,以确保在复杂场景下的身份一致性;NFC则通过探索样本的邻域来发现潜在的正样本,从而进一步增强特征集中化。实验结果表明,Pose2ID在多个标准数据集上实现了新的最先进结果,展示了其强大的适应性和泛化能力。原创 2025-03-11 10:20:52 · 1692 阅读 · 0 评论 -
CVPR2025论文解析|Generative Gaussian Splatting for Unbounded 3D City Generation-water-merged
本文提出了一种名为GaussianCity的生成性高斯喷溅框架,旨在高效合成无界3D城市。该框架通过引入BEV-Point作为紧凑的中间表示,确保在生成过程中显著降低VRAM的使用。GaussianCity利用空间感知的高斯属性解码器生成3D高斯属性,并通过高斯光栅化器渲染图像。实验结果表明,GaussianCity在生成质量和效率方面均优于现有的最先进方法,尤其在无人机视角和街景3D城市生成任务中表现出色,速度提升达60倍(10.72 FPS对比0.18 FPS)。原创 2025-03-11 10:20:40 · 784 阅读 · 0 评论 -
CVPR2025论文解析|Generative Photography Scene-Consistent Camera Control for Realistic Text-to
本文提出了生成式摄影的概念,旨在通过控制相机内在设置来实现文本到图像生成中的场景一致性。当前的文本到图像生成模型(如Stable Diffusion 3和FLUX)在准确解释相机特定设置和保持基础场景一致性方面存在显著局限。为了解决这些问题,本文引入了维度提升和对比相机学习两个核心创新,允许在生成过程中实现精确的相机设置控制和一致的场景。实验结果表明,所提出的方法在生成场景一致的逼真图像方面显著优于现有的最先进模型。原创 2025-03-11 10:20:12 · 891 阅读 · 0 评论 -
CVPR2025论文解析|HVI A New Color Space for Low-light Image Enhancement-water-merged
本文提出了一种新的色彩空间HVI(水平/垂直强度),旨在解决低光照图像增强(LLIE)中的颜色偏差和亮度伪影问题。现有的LLIE方法通常基于标准RGB(sRGB)空间,容易产生颜色失真和亮度伪影。HVI通过极化的色相和饱和度(HS)图以及可学习的强度映射,减少了相似颜色之间的欧几里得距离,从而消除了红色伪影,并压缩低光区域以去除黑色伪影。为充分利用色度和强度信息,本文还提出了一种新颖的颜色和强度解耦网络(CIDNet),用于在HVI空间中学习准确的光度映射函数。原创 2025-03-11 10:18:40 · 1117 阅读 · 0 评论 -
CVPR2025论文解析|Identity-Preserving Text-to-Video Generation by Frequency Decomposition-water-merged
本文提出了一种新的身份保留文本到视频生成模型ConsisID,旨在生成高保真且具有一致人类身份的视频。该模型通过频率分解技术,利用低频和高频特征来保持生成视频中的身份一致性。ConsisID采用了一种无调优的扩散Transformer(DiT)控制方案,避免了繁琐的逐案例微调。通过引入全局和局部人脸提取器,模型能够有效地捕捉面部特征,并在生成过程中保持高质量的身份保留。实验结果表明,ConsisID在生成高质量、可编辑且一致的身份保留视频方面表现优异,推动了身份保留文本到视频生成技术的发展。原创 2025-03-11 10:18:22 · 772 阅读 · 0 评论
分享