自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

原创 告别注意力机制?MamEVSR:基于状态空间模型的事件视频超分新范式

本文提出了一种基于状态空间模型的事件视频超分辨率方法MamEVSR。该方法通过iMamba和cMamba两个核心模块,分别实现帧间特征融合和跨模态信息交互,在保持线性计算复杂度的同时显著提升重建质量。

2025-12-02 09:33:04 815

原创 复旦26岁博士独立一作登Nature:攻克裸眼3D数十年难题,视场角超100°创纪录!

复旦大学等机构提出了一种名为EyeReal的新型裸眼3D显示系统,通过深度学习实时优化光学信息分布并结合人眼视觉建模,在低成本多层液晶屏上实现了超宽视角(>100°)的全视差3D显示。该系统采用全卷积网络生成相位图,设计了结构化损失函数提升图像质量,并通过大规模光场数据集验证效果。实验表明,该方法在图像一致性和视角范围上优于传统技术,为教育、VR等领域提供了可行的裸眼3D解决方案,但仍需改进多用户支持功能。相关成果发表在Nature期刊。

2025-12-01 09:52:29 1528

原创 Mamba再显神威!吉大提出DAPointMamba:基于状态空间模型的跨域自适应点云补全框架

本文提出DAPointMamba,一种基于状态空间模型的领域自适应点云补全框架。该方法创新性地采用跨域块对齐与特征调制策略,通过空间和通道双重SSM对齐模块,有效缓解不同传感器和场景间的领域差异问题。实验表明,该框架在多个真实与合成数据集上均取得最优性能,显著提升跨域补全效果,同时保持线性计算复杂度。相比传统方法,DAPointMamba在保持细节完整性和计算效率方面具有明显优势,为自动驾驶等跨场景应用提供了新的解决方案。

2025-11-28 11:25:35 998

原创 AAAI 2026|厦大提出NFA-ViT:实现局部图像篡改检测精准定位

本文提出BR-Gen数据集和NFA-ViT模型,针对AI生成图像中背景/场景等局部篡改检测难题。通过噪声引导注意力机制增强伪造特征传播,结合加权解码器提升定位精度。实验表明,该方法在BR-Gen数据集上F1达0.972,IoU达0.907,并展现强泛化能力。研究为局部伪造检测提供了新思路,但噪声提取质量对效果影响较大,未来需优化轻量化部署。

2025-11-27 09:58:14 1094

原创 顶会顶刊热门选题——Mamba+YOLO,开启目标检测新范式!

【目标检测新趋势:Mamba+YOLO组合】近期CV顶会涌现大量Mamba与YOLO结合的创新研究,包括AAAI、ICASSP等会议及无人机/红外领域期刊。该组合通过Mamba的线性复杂度全局建模能力,显著提升YOLO系列模型的精度与速度。

2025-11-26 09:38:28 1073

原创 NeurIPS 2025|MIT提出LGMP:面向预训练自监督视觉模型的数据集蒸馏

本文提出了一种针对预训练自监督视觉模型的数据集蒸馏新方法——线性梯度匹配(Linear Gradient Matching)。该方法通过优化合成图像,使其在预训练特征空间中产生的梯度与真实图像一致,从而仅需每类一张图像即可训练出高性能线性分类器。

2025-11-25 10:25:18 1292

原创 CVPR 2025 Highlight|UniRestore:基于扩散先验的统一图像复原模型,优化视觉质量与机器识别性能

摘要:本文提出UniRestore模型,首次统一了感知图像恢复(PIR)和任务导向图像恢复(TIR)。通过互补特征恢复模块(CFRM)重建退化特征,并利用任务特征适配器(TFA)实现多任务自适应融合。实验表明,该模型在PSNR、SSIM等指标上优于现有方法,同时提升了下游任务性能。UniRestore的创新在于平衡了视觉质量与机器识别需求,具有良好扩展性,为图像修复领域提供了新思路。

2025-11-24 10:02:22 879

原创 用Vision Transformer解决抽象推理:何恺明团队提出VARC框架准确率达60.4%!!!

本文提出视觉ARC(VARC)框架,将抽象推理语料库(ARC)任务重新定义为图像转换问题。通过视觉变换器(ViT)和测试时训练(TTT)策略,VARC仅使用ARC数据就实现了60.4%的准确率,超越语言模型并接近人类水平。该方法验证了视觉先验对抽象推理的重要性,为相关研究提供了新思路。

2025-11-21 14:05:17 814

原创 ICCV 2025 Oral|DTWSR:基于扩散Transformer与多级小波谱改进的单图像超分辨率方法

摘要:本文提出了一种基于小波谱的扩散变换器模型(DTWSR)用于单幅图像超分辨率。该方法创新性地结合扩散模型和变换器,通过多级小波分解提取频率特征,并利用金字塔标记化减少计算量。采用双解码器结构分别处理低频与高频成分,通过注意力掩码促进子带对齐。

2025-11-20 10:52:24 1158

原创 水下目标检测新突破!哈工程&港理工提出U-DEC:端到端架构实现高精度实时检测

U-DECN的核心思路是在卷积编码器-解码器架构中引入多尺度特征、动态查询初始化与颜色去噪机制,以提升检测精度与速度,同时避免使用NMS和复杂注意力模块。U-DECN在卷积编码器-解码器架构中成功融合了多尺度特征、动态查询与颜色去噪机制,显著提升了水下目标检测的精度与速度,并在嵌入式设备上实现实时推理。的端到端水下目标检测模型,它基于卷积网络架构,融合了多尺度特征、动态查询初始化与颜色去噪机制,显著提升了检测精度和运行速度。显示U-DECN在DUO上AP达64.0,优于DETR、DINO等模型;

2025-11-19 09:59:43 1317

原创 AAAI 2026 Oral | 东南大学提出DOC:增强CLIP对抗鲁棒性的方向正交反攻击

本文提出了一种名为“方向正交反攻击”(DOC)的新方法,用于增强视觉-语言预训练模型(VLP)对抗对抗样本的鲁棒性。针对现有测试时反攻击(TTC)方法扰动单一的问题,DOC通过引入正交梯度增强和动量机制,生成更具多样性的反攻击扰动,有效中和多种对抗攻击。

2025-11-18 10:19:04 837

原创 NeurIPS 2025 | 清北联手提出VCA:Pool+Emb双流设计,打破ViT平方复杂度魔咒!

本文提出视觉对比注意力(VCA)模块,用于改进视觉变换器(ViT)中多头自注意力计算复杂度高、易关注冗余信息的问题。VCA通过压缩查询特征为少量视觉对比标记,并采用正负双流对比机制,将计算复杂度从二次降为线性。

2025-11-17 11:31:31 586

原创 CVPR 2025|电子科大提出渐进聚焦Transformer:显著降低超分辨率计算开销

本文提出了一种渐进聚焦Transformer(PFT)用于单图像超分辨率任务,通过渐进聚焦注意力(PFA)机制将网络中的注意力图连接起来,逐步聚焦于最重要的图像块。PFT采用稀疏矩阵乘法过滤不相关特征,显著降低计算复杂度。

2025-11-12 09:58:57 1443

原创 AAAI 2026|港科大等提出ReconVLA:利用视觉重构引导,刷新机器人操作精度!(含代码)

本文提出ReconVLA模型,通过隐式视觉grounding机制提升机器人操作精度。该方法让模型在训练中重建任务相关的凝视区域,引导视觉注意力聚焦目标物体。模型包含动作生成和视觉重构两个部分,使用扩散变换器从噪声中重建目标区域。

2025-11-11 09:51:17 1070

原创 水下图像模糊难分析?华科、国防科大提出NAUTILUS:首个水下多模态大模型,融合物理先验,带来清晰视角!

华中科技大学与国防科技大学联合提出首个水下多模态大模型NAUTILUS,突破传统水下视觉任务的局限。该研究创新性地构建了包含145万图像-文本对的NautData数据集,并设计了基于物理成像模型的视觉特征增强模块(VFE),在特征空间显式恢复水下退化图像信息。实验表明,NAUTILUS在8类水下任务中表现优异,显著提升识别准确性,且VFE模块可兼容主流多模态模型。研究成果为水下场景理解提供了新思路,相关代码和数据集已开源。

2025-11-10 09:57:07 863

原创 AAAI 2025 | 川大提出Mesorch:CNN与Transformer并行架构,革新图像篡改检测!

如今,图像篡改技术越来越逼真,如何准确识别和定位图像中被篡改的区域成为一个重要课题。现有的方法大多只关注图像的微观痕迹(如噪声、边缘)或宏观语义(如物体内容),难以同时捕捉篡改留下的细微痕迹和整体语义变化,导致定位效果不佳。实验表明,该模型在多个公开数据集上取得了最先进的定位精度,并且在抗干扰能力和计算效率方面也表现优异。作者姓名与单位:朱雪康、马晓晨、苏磊等,分别来自四川大学、MBZUAI、香港理工大学、澳门大学等单位。计算每个尺度的平均权重 ,若低于阈值 ,则剪枝该尺度,以提升效率。

2025-11-07 09:45:06 1280

原创 超越Google、Meta!360 FG-CLIP 2 攻克图像与文本的细节匹配难题,铸就最强视觉语言模型!

360AI团队提出FG-CLIP2模型,创新性地解决了当前视觉语言模型在细粒度理解和双语支持方面的不足。该模型采用两阶段训练策略,结合全局对齐和局部优化,引入文本模态内对比损失等创新方法,在29个数据集上实现最优性能。

2025-11-06 09:43:44 1513

原创 ICLR 2025 Spotlight | 打破AI“黑箱”!最新IIS评分框架:揭示模型性能与可解释性的共生关系

本文提出固有可解释性评分(IIS)量化预训练模型表示的可解释性,发现可解释性与分类性能呈正相关,打破了传统认知。

2025-11-05 11:22:34 786

原创 北大、阿里通义提出UniLIP: 自蒸馏训练助力CLIP大一统重建!1B参数性能超越7B模型!

本文提出UniLIP框架,通过自蒸馏训练和双条件架构,实现CLIP模型在图像理解与生成任务上的统一。实验表明,UniLIP在重建、生成和编辑任务中均优于现有模型,尤其在保持语义理解能力的同时提升了图像细节重建质量。

2025-11-04 09:59:34 1085

原创 CVPR 2025 | 交叉注意力机制还能这么玩?WPFormer利用双域Transformer刷新缺陷检测SOTA(含代码)

本文提出了一种基于小波与原型增强的查询变换器(WPFormer),用于提升工业制造中的像素级表面缺陷检测性能。

2025-11-03 09:43:25 1471

原创 NeurIPS 2025 | 港中文提出COS3D:多模态融合语言与分割,创造开放词汇3D分割新范式!

语言场方法如 LangSplat、LEGaussians 等,通过可微分渲染将 CLIP 特征蒸馏至三维语言场中,实现对语言查询的响应,但其语言特征表达能力有限,导致分割边界模糊。为此,COS3D 提出协同场(collaborative field)概念,将实例场与语言场有机结合,通过双向映射机制在训练与推理阶段实现两者的协同优化,从而在分割质量与训练效率上均取得显著提升。COS3D 的核心思路是通过构建实例场与语言场之间的双向映射,实现语言与分割信息的协同优化。

2025-10-31 10:00:30 1200

原创 ICCVW|ViT-YOLO:融合Transformer与YOLO的无人机图像目标检测新框架,突破尺度与背景复杂度瓶颈

本文提出了一种名为ViT-YOLO的混合目标检测框架,用于解决无人机图像中目标尺寸差异大、背景复杂等问题。该模型将多头自注意力机制嵌入CSP-Darknet主干网络以增强全局上下文信息提取,并引入加权双向特征金字塔网络进行多尺度特征融合。

2025-10-30 10:52:42 1315

原创 ICCV 2025 | 浙大、港中文、上交提出EgoAgent:首个集学习、状态预测与动作生成于一身的智能体

论文摘要:本文提出EgoAgent,首个能统一学习第一人称环境表示、预测未来状态并生成三维动作的智能体模型。通过联合嵌入-动作-预测(JEAP)架构,采用交错序列建模和时间不对称的预测-观察机制,实现了三项任务的协同优化。

2025-10-29 09:56:27 1104

原创 2017-2025顶会顶刊「点云补全」论文梳理

本文整理了2017-2025年点云补全领域的顶刊顶会论文合集,重点介绍三篇代表性工作:PCDreamer(CVPR2025)通过多视角扩散先验生成完整形状;GeoFormer(ACM2024)利用三平面投影与Transformer增强几何表示;CRA-PCN(AAAI2024)采用跨分辨率特征聚合提升细节还原。这些方法通过多模态融合、多尺度特征交互等创新技术,显著提升了点云补全的全局一致性和局部细节还原能力。

2025-10-28 10:38:01 853

原创 NeurIPS 2025 Spotlight | DexFly Wheel框架:只需一条演示,就让机器人学会「自我造数据」

本文提出DexFlyWheel框架,通过结合模仿学习与残差强化学习构建自改进数据飞轮,解决灵巧操作中数据稀缺问题。

2025-10-27 09:49:38 1149

原创 YOLO入门攻略:实时目标检测技术从理论到实践

YOLO作为单阶段目标检测的代表性算法,通过将检测任务转化为回归问题,实现了实时高效的目标识别。技术演进历经多个版本,从初代YOLO到最新YOLOv9,在保持检测速度的同时不断提升精度。核心技术包括AnchorBoxes机制、损失函数优化等。

2025-10-24 10:10:19 1270

原创 ICCV 2025最佳论文出炉!CMU团队带来BrickGPT:让文本生成3D积木!

ICCV 2023 公布多项重磅奖项:CMU团队凭借BrickGPT获最佳论文奖,该研究实现了从文本生成物理稳定的3D积木结构。

2025-10-23 13:50:54 1059

原创 视觉革命:DeepSeek-OCR实现10倍无损文本压缩,用“一幅图”承载“千言万语”

DeepSeek团队开源了DeepSeek-OCR模型,提出了一种创新的视觉-文本压缩方法,通过将文本编码为图像并利用视觉编码器压缩为少量视觉token,实现对长文本的高效处理。该模型由DeepEncoder和基于DeepSeek3B-MoE-A570M的解码器组成,支持多分辨率输入,在保证低激活内存的同时实现高压缩比。实验显示,该模型在OmniDocBench基准测试中性能优于现有OCR模型,且单张A100 GPU每日可生成20万页训练数据。研究为长文本处理提供了新思路,但仍存在高压缩比下精度下降等问题。

2025-10-22 10:12:14 1319

原创 ICLR 2025 | 伯克利重磅MAST taxonomy,多智能体AI“崩溃诊断”手册问世!失败率直降15.6%

摘要:本文系统研究了多智能体LLM系统(MAS)的失败模式,提出首个基于实证的分类法MAST,涵盖14种细粒度失败模式(如规范违反、智能体不对齐、验证失败等)。通过分析5个主流MAS框架在150+任务中的表现,发现即使使用GPT-4o等强大模型,失败率仍高达75%,且系统设计缺陷是主因。研究采用扎根理论构建分类法,开发了LLM自动标注流程(准确率94%),并通过干预实验验证了MAST的实用性(如ChatDev性能提升15.6%)。成果为MAS的优化提供了理论工具,但未涵盖效率等非正确性指标,未来需扩展至多维

2025-10-21 09:43:06 1150

原创 李飞飞重磅发布 RTFM模型:只需一块GPU,实时生成“永恒3D世界”!

李飞飞团队推出RTFM实时框架模型,能高效生成3D世界并模拟光影效果。该模型基于视频数据端到端训练,单张H100 GPU即可实现交互式推理。三大核心技术突破:1)优化架构实现高效推理;2)采用可扩展的隐式3D建模方法;3)通过空间位姿实现持久性记忆。未来将增强动态建模和交互能力,持续提升模型规模。

2025-10-20 10:16:48 672

原创 ICLR重磅论文!超越框与点:SAM 3用名词短语分割万物,性能超越前代两倍

本文提出SAM3模型,首次系统化解决图像与视频中的开放词汇概念分割问题。该模型采用解耦的识别-定位架构,引入全局存在性头部提升检测精度,并构建了大规模SA-Co数据集。实验表明,SAM3在图像和视频分割任务上性能显著优于现有方法(如LVIS零样本掩码AP提升明显),同时支持交互式分割与复杂语言查询。研究创新性地结合人机协同数据标注,为通用视觉模型发展提供了新思路,但在细粒度泛化和实时视频推理方面仍需优化。

2025-10-17 10:04:42 1204

原创 ICCV 2025|暴打4DGS!颠覆NeRF!7D高斯泼溅统一时空角建模,动态场景重建误差骤降72%

《7DGS:统一时空-角度高斯泼溅框架实现动态场景实时渲染》论文提出了一种突破性的7D高斯泼溅(7DGS)方法,通过7维高斯表示(空间3D+时间1D+视角3D)统一建模动态场景的几何、运动和外观变化。相比现有4DGS方法,7DGS在PSNR指标上提升高达7.36dB,同时保持401FPS的实时渲染速度。其创新性体现在:1)7D高斯表示统一捕获时空和视角依赖效应;2)条件切片机制实现高效投影;3)自适应精炼提升复杂动态建模能力。实验证明该方法在心跳可视化、云层光照等复杂场景中表现优异,为VR/AR应用提供了新

2025-10-16 10:25:36 1749

原创 从 YOLOv1 到 YOLOv13:十年进化,一文读懂目标检测的「速度与激情」

YOLO系列目标检测算法发展综述 YOLO系列从2015年至今已迭代至v13版本,始终追求速度与精度的平衡。核心创新包括:v1首创单阶段端到端检测;v2引入锚框和多尺度训练;v3采用深度残差网络和三尺度输出;v4系统整合工程优化技巧;v5完善PyTorch生态链;v6-v8逐步实现Anchor-Free和多功能统一;v9改进梯度信息流;v10消除NMS后处理;最新版本开始融合注意力机制和超图建模。该系列通过持续优化网络结构、训练策略和工程部署方案,在保持实时性的同时不断提升检测性能,广泛应用于自动驾驶、视频

2025-10-15 10:52:21 1598

原创 李飞飞押注的3D世界模型,这篇论文一次性拆解明白!

本文系统综述了三维与四维世界建模方法,填补了该领域系统性综述的空白。研究聚焦从二维生成转向几何驱动的三维/四维建模,提出了基于视频、占据栅格和LiDAR的三类方法体系,并划分为数据引擎、动作解释器等四种功能类型。论文明确定义了世界建模概念,总结了VAE、GAN等生成模型在三维/四维数据上的应用,系统梳理了专用数据集(nuScenes、KITTI等)和评估指标(FID、IoU等)。实验表明,几何一致性与时序动态性建模是提升生成质量的关键,未来需突破长时序生成、物理合理性等挑战。研究为构建可控制、物理一致的世界

2025-10-14 11:03:32 1231

原创 DINOv3确实很“类脑”!Meta 深度揭秘 DINOv3 “类脑” 密码:模型、训练、数据三重影响

MetaAI团队最新研究揭示了视觉Transformer模型DINOv3与人脑视觉表征的惊人相似性。通过系统解耦模型规模、训练量和数据类型三大因素,研究发现:1)模型规模越大,与高级脑区对齐程度越高;2)训练量增加会先对齐初级视觉区,后对齐前额叶;3)人类视角数据训练的模型类脑性显著优于细胞/卫星图像。研究创新性提出编码、空间、时间三大类脑指标,并发现AI模型表征发展轨迹与大脑皮层发育规律高度一致,为理解AI与生物智能的相似性提供了新视角。该成果对类脑AI设计和神经科学研究具有重要指导意义。

2025-10-13 11:19:21 1057

原创 图像“无限套娃”禁区被破!北航新研究实现多轮增强不损画质,完美解决失真难题

本文针对压缩图像质量增强方法在多次处理时出现性能退化的问题,提出了一种域一致增强方法。通过引入幂等性约束,将现有模型转化为能在首次增强后保持图像在自然域内的新型模型,有效解决了多次增强导致的质量下降问题。该方法包含增强、恒等、幂等和紧凑性四个目标函数,实验表明可显著降低退化指数(最高达74%),同时保持单次增强性能差异小于2.3%。研究首次将图像压缩多代问题推广至多次增强场景,为实际视觉管道中的质量增强瓶颈提供了创新解决方案。

2025-10-12 10:45:00 1251

原创 NeurIPS 2025 Spotlight | 甩掉文本CoT!FSDrive:自动驾驶VLA新范式

《FutureSightDrive:基于时空视觉链式思考的自动驾驶框架》提出了一种创新的自动驾驶视觉推理方法。该研究突破传统文本链式推理的局限,通过构建统一的图像形式时空CoT(时空链式思考),使视觉语言模型能够以视觉方式进行未来场景预测和决策。核心创新包括:1)将VLM作为世界模型生成未来帧;2)采用渐进式生成策略确保物理约束;3)设计统一预训练范式激活视觉生成能力。实验表明,该方法在nuScenes数据集上实现了0.31m的平均轨迹误差和0.12%的碰撞率,显著优于现有方法。这种视觉思考范式为自动驾驶提

2025-10-11 10:57:39 1114

原创 水下分割新突破!UIS-Mamba:用 Mamba+双模块破局水下分割难题,性能超越Transformer

本文提出UIS-Mamba模型,创新性地将状态空间模型Mamba应用于水下实例分割任务。针对水下图像特性,设计了动态树扫描(DTS)模块实现自适应特征提取,通过隐藏状态弱化(HSW)模块抑制背景干扰。实验表明,在UIS和USIS10K数据集上,UIS-Mamba-T模型分别达到29.4和62.2 mAP,参数量仅为115M,显著优于现有方法。该研究为Mamba在复杂视觉任务中的应用提供了新思路,同时保持了模型的高效性。

2025-10-10 15:25:03 939

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除