CVPR高质量论文分享
文章平均质量分 89
本专栏聚焦计算机视觉领域顶级会议 CVPR的前沿成果,精选生成式 AI、3D 视觉、多模态学习等方向的突破性论文。深度解析最佳论文,探讨人类反馈机制如何提升文本生成图像的真实性与可控性;
陈奕昆
大龄程序员,北京航空航天-博士在读(物理学),广东省人工智能算法工程师职称,超过18年大数据、人工智能技术行业经验,共计28项专利、参与2个科技部重点专项、参与2项国标编制工作:同时兼任广东省人工智能协会-理事,珠海建协数智化分会-会长,CCF-计算机视觉-专委委员,CCF-人工智能与模式识别-专委委员,CCF-大数据-专委委员,IEEE专业会员。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
CVPR 2025爆款:DEIM框架凭什么让目标检测既快又准?
DEIM框架突破DETR目标检测模型的训练效率瓶颈,通过密集O2O匹配和监督信号自适应加权,实现训练时间减半且性能提升1.4-2.5%AP。该即插即用方案兼容主流DETR架构,在自动驾驶、智能监控等场景验证有效,显著提升小目标检测率15%,推理速度保持110FPS以上。研究为实时视觉系统提供了高效训练范式,代码已开源,支持快速工业部署。原创 2025-07-10 19:40:47 · 2507 阅读 · 0 评论 -
CVPR计算机视觉顶会论文解读:IPC-Dehaze 如何解决真实场景去雾难题
本文介绍了IPC-Dehaze,一种创新的图像去雾方法,通过迭代预测-评判框架和码本解码机制,有效解决了现有去雾算法在复杂场景下的性能瓶颈。该方法在多个基准测试中取得了SOTA性能,尤其在非均匀雾霭、色彩失真和低光照条件下表现出色。IPC-Dehaze采用编码器-解码器架构,包含特征提取编码器、迭代预测器和评判解码器,通过多次迭代逐步优化去雾结果。实验结果表明,该方法在处理复杂雾霭条件下表现出色,未来工作将探索在视频去雾和实时应用中的扩展。应用场景包括自动驾驶、遥感与卫星成像、监控系统、无人机巡检和影视后期原创 2025-05-14 00:36:32 · 1857 阅读 · 0 评论 -
CVPR2025:单图生成全视角!LFP让视图合成真实感暴涨40%,速度提升20倍。AR/VR必备!遮挡、强光全不怕!超越NeRF!LFP用1/10参数实现更优视图合成,移动端也能实时渲染
LFP通过光照场先验与轻量级神经隐式表征的结合,首次实现了“单图输入→高质量多视角合成”的高效推理,在真实感、泛化能力和计算效率上达到新平衡。其“先验知识+轻量模型”的设计思路,为资源受限场景下的视觉合成提供了可复用的方法论。随着AR/VR、自动驾驶等领域对实时视图合成的需求激增,LFP有望成为下一代智能视觉系统的核心组件,推动神经渲染技术从“实验室原型”走向“规模化应用”。参考资料从技术原理到落地应用全面解析了最新视图合成技术。原创 2025-04-28 08:26:53 · 1815 阅读 · 0 评论 -
CVPR2025:遮挡、低光全不怕!Pose2ID让行人重识别在极端场景也能“看得清、认得出”。零训练碾压SOTA!Pose2ID让行人重识别准确率暴涨50%+
Pose2ID通过特征中心化理念,打破了“依赖大规模训练数据”的传统范式,证明通过合理的特征聚合与生成增强,无需重新训练即可显著提升身份表示能力。其在跨模态、遮挡场景的卓越表现,为复杂现实环境中的行人重识别提供了通用解决方案。随着生成模型与无训练技术的结合深化,未来可期待更高效、泛化的视觉识别系统,推动智能安防、人机交互等领域的跨越式发展。原创 2025-04-28 08:21:08 · 2697 阅读 · 0 评论 -
CVRP2025:双剑合璧!MonSter让立体匹配在遮挡区域精度暴涨49.5%,五大榜单集体刷新
MonSter通过单目深度与立体匹配的深度协同,首次实现了对不适定区域的系统性优化,在精度与泛化能力上达到了新高度。其“双向引导+迭代优化”的设计思路,为多模态融合提供了可复用的方法论。随着自动驾驶、元宇宙等领域对高精度深度感知的需求激增,MonSter有望成为下一代视觉感知系统的核心组件,推动立体视觉从“有限场景可用”走向“全场景鲁棒”。参考资料。原创 2025-04-27 17:03:09 · 1400 阅读 · 0 评论 -
CVPR2025:具身智能破局!通用动作空间如何让千台机器人共用一套控制语言?0.5B参数逆袭14X大模型!UniAct开创跨机器人控制新纪元
UniAct通过通用动作空间打破了具身智能的“数据孤岛”,在轻量化、跨实体泛化和快速适配方面实现了三大突破。其0.5B模型超越14倍参数SOTA的表现,证明了“结构创新”比“单纯堆参”更高效。多模态融合:结合触觉、听觉等更多传感器数据,增强复杂环境下的动作决策能力。终身学习:支持机器人在运行中持续学习新动作,构建动态更新的通用动作码本。边缘部署:针对Jetson等嵌入式平台优化模型架构,实现“端云协同”的实时控制。原创 2025-04-27 16:55:46 · 2293 阅读 · 0 评论 -
CVPR2025:轻装上阵,MobileMamba引领移动设备视觉革命
MobileMamba作为一种轻量级多感受野视觉Mamba网络,通过引入多感受野结构和轻量级设计策略,在多个视觉任务中取得了优异的性能。其在资源受限环境下的优势使其具有广泛的应用前景。随着技术的不断发展,相信MobileMamba将在更多领域发挥重要作用。原创 2025-04-24 10:38:39 · 873 阅读 · 0 评论 -
CVPR2005:超越Transformer!MambaVision开启视觉骨干网络性能新巅峰
MambaVision作为一种创新的混合视觉骨干网络,通过融合Mamba和Transformer的优势,在多个视觉任务中取得了优异的成绩。其分层架构和高效的特征建模能力,为计算机视觉领域带来了新的解决方案。随着研究的不断深入和应用的拓展,相信MambaVision将在更多领域发挥重要作用,推动视觉技术的进一步发展。原创 2025-04-24 10:24:38 · 1053 阅读 · 0 评论 -
2025CVRP:低光增强天花板!ReDDiT用8步采样刷新10大数据集SOTA,暗部细节清晰到“离谱”
2步采样:在LOL-v1数据集上,PSNR达27.32,SSIM达0.865,性能接近传统方法20步采样结果,推理速度提升10倍以上;8步采样:在10个基准数据集(LOL/SICE/MEF等)上刷新SOTA,PSNR平均提升1.2-2.5dB,LPIPS降低15%-20%(见表1)。ReDDiT通过反射率感知的轨迹优化,首次在2步采样下实现可用性能,8步采样刷新SOTA,打破了扩散模型在低光增强中的效率瓶颈。视频级增强:扩展至视频序列,解决帧间一致性问题;跨模态融合。原创 2025-04-23 10:29:55 · 2499 阅读 · 1 评论 -
CVPR2025:低光图像增强天花板!HVI 技术让红色噪声减少 63%,PSNR 突破 29.57
HVI颜色空间与CIDNet网络通过解耦颜色与亮度处理,突破了传统低光增强的噪声与色彩平衡难题,在10+数据集上刷新SOTA。视频级低光增强:扩展至视频序列处理,解决帧间一致性问题;轻量化部署:针对移动端优化模型结构,实现端侧实时增强;多模态融合:结合红外、深度等信息,构建跨模态低光增强框架。随着AIGC与影像处理的深度融合,HVI技术有望成为下一代低光视觉解决方案的核心引擎,为智能终端、安防、医疗等领域提供更可靠的视觉基础。原创 2025-04-23 10:22:37 · 2265 阅读 · 0 评论 -
首次捕捉 “面部特征漂移“!这项 CVPR 2025 新技术让跨算法伪造视频现原形
本文提出的**视频级混合增强(VB)和时空适配器(StA)**技术,首次将FFD伪影引入数据合成,并通过轻量级架构实现高效时空特征融合,在跨域检测中展现出卓越泛化能力。多模态融合:结合音频、文本信息进一步提升检测鲁棒性;轻量化部署:适配移动端设备,支持实时视频流检测;对抗攻防:针对更高级的动态伪造技术(如时序一致化生成模型)优化算法。论文代码预计在CVPR 2025开源,相关技术已在腾讯优图实验室等机构落地,为构建可信数字内容生态提供了关键技术支撑。原创 2025-04-20 13:24:50 · 1769 阅读 · 0 评论 -
CVPR 2025 爆点!中科大团队用事件相机改写低光成像规则,RETINEV 让暗场图像秒变高清
在低光成像领域,如何有效利用事件相机的独特优势提升图像质量一直是研究热点。本文聚焦中科大团队发表于CVPR 2025的论文《Low-light image enhancement using event-based illumination estimation》,深入解析其提出的RETINEV框架。该方法通过事件相机的“时间映射事件”估计光照,结合Retinex理论实现低光图像的高质量增强,为低光视觉任务提供了全新的技术路径。原创 2025-04-20 00:16:14 · 3671 阅读 · 2 评论
分享