AI Day直播 | “像素级完美”深度感知,NeurIPS高分论文解密

像素级完美深度估计新突破

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>直播和内容获取转到 → 自动驾驶之心知识星球

点击按钮预约直播

深度估计是机器人感知、三维重建、AR/VR 等应用的核心。然而,现有的深度估计方法普遍存在边缘飞点(Flying Pixels)问题,而这会导致机器人执行决策时候,引发错误动作;三维重建时导致物体轮廓鬼影重重等。现有方法经历边缘飞点主要因为以下原因:

  • 判别式模型(如 Depth Anything v2, Depth Pro)由于回归损失的平滑倾向,容易在深度突变处产生平均化预测,导致边缘飞点;

  • 生成式模型(如 Marigold, Lotus)虽然能通过像素分布建模保留更多细节,但依赖 Stable Diffusion 的 VAE 压缩,仍会损失结构锐度与几何保真度,产生大量飞点。

本文提出 Pixel-Perfect Depth (PPD),一种直接在像素空间进行扩散生成的单目深度估计模型,从根源上避免了因 VAE 压缩导致的伪影问题。然而,高分辨率像素空间的扩散建模极具挑战:模型需兼顾全局语义的一致性局部细节的精确性,否则极易出现结构失真或深度跳变。为此,本文设计了语义引导的扩散 Transformer(SP-DiT),在扩散过程中引入来自视觉基础模型的高层语义特征作为提示,有效增强了模型对全局结构的把握与细节恢复能力。同时,本文提出一种语义特征正则化方法,促使外部语义信息与 DiT 内部表示更好对齐,从而确保训练稳定、收敛可靠。我们很荣幸邀请到一作许刚伟博士,为大家分享这篇最新的工作!今晚七点半继续锁定自动驾驶之心直播间~

论文标题:Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers

论文链接:https://arxiv.org/abs/2510.07316

Project Page:https://pixel-perfect-depth.github.io/

Code: https://github.com/gangweix/pixel-perfect-depth

Huggingface Demo: https://huggingface.co/spaces/gangweix/Pixel-Perfect-Depth

分享介绍

更多精彩回顾

🚀 直播精华看不够?完整版深度内容已独家上线知识星球「自动驾驶之心」!涵盖所有技术细节、QA及未公开彩蛋。深度解析!

DriveBench:VLM在自动驾驶中真的可靠吗?(ICCV'25)

硬核夜话:和一线量产专家深入聊聊自驾数据闭环工程

AI Day直播 | LangCoop:自动驾驶首次以“人类语言”的范式思考

干货满满,快来加入

END

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值