- 博客(28)
- 收藏
- 关注
原创 Neural Kernel Surface Reconstruction
本文提出一种从大规模稀疏噪声点云重建3D隐式曲面的新方法Neural Kernel Surface Reconstruction (NKSR)。该方法基于神经核场(NKF),通过使用紧凑支持核函数实现内存高效线性求解,支持大场景重建;通过梯度拟合提升抗噪能力;并降低训练条件,允许任意数据集联合训练。核心创新包括:1)基于梯度的核函数提升抗噪性;2)显式层级体素结构确保多尺度一致性。模型通过预测稀疏体素层级和核函数,求解线性系统获得隐式曲面,并引入掩码模块消除虚假几何。实验表明该方法能处理域外输入、混合训练数
2025-11-19 17:24:27
1015
原创 GS-Occ3D
本文提出GS-Occ3D,一种基于高斯曲面模型的纯视觉3D场景重建方法,旨在解决现有基于Mesh方法在自动驾驶场景中的局限性。该方法通过八叉树结构实现分层空间划分,结合动态目标运动状态捕捉和时序聚合处理,有效提升了重建精度和效率。实验结果表明,该方法在复杂室外场景中表现优异,尤其适用于纹理较弱和长视距的高速场景。通过帧聚合和射线传播策略,显著改善了动态目标重建质量,为自动驾驶领域提供了可靠的纯视觉解决方案。
2025-11-10 15:59:19
595
原创 GaussTR
本文提出GaussTR框架,将3D场景表示为离散高斯分布集合并与视觉基础模型(VFM)对齐,实现自监督3D空间理解。该模型通过Transformer预测高斯参数,利用高斯溅射将3D特征投影到2D视图与VFM特征对齐,无需显式标注即可实现开放词汇占用预测。实验表明,GaussTR在零样本任务中达到SOTA性能,显著提升了3D场景理解的泛化能力。核心创新包括:1)基于高斯分布的离散场景表征;2)与VFM对齐的自监督训练;3)高效的开放词汇预测能力。
2025-10-15 11:19:11
704
原创 Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving
由于点云的稀疏性,很容易将空洞误以为是"free",因此本文采用叠帧数据下的射线广播的方法,如图a所示,如果该点位置反射了来自雷达的射线,则定义为"occupied",若an该点被射线o穿透,则定义为"free",除此之外,则定义为"unobserved"。因此本文利用点云和其分割结果重建高质量的Occ真值,并解决了几个关键问题:1) 点云稀疏性问题,2) 遮挡问题,3) 点云与图像之间的对齐问题。其中,nuscenes数据集的标注范围为[-40m, -40m, -1m, 40m, 40m, 5.4m];
2025-08-05 11:07:17
1029
原创 通用障碍物调研
在调研到的方法中,可以实现通用障碍物检测大致功能的包括了freespace的分割,open set/增量学习(包含类别信息),无差别检测(不包含类别信息),想要在轻量化的基础之上保障检测的精准性是一件极具挑战的事情。col-wise的检测:好处在于:无差别障碍物检测,对于我们来说,检测出最近的障碍物是第一需求的话,这种技术路线很适配;方法虽然比较老,但是一些通用方法的迭代发展,完全可以与之结合以提升性能;
2025-08-01 19:51:29
1392
3
原创 YOLOv9
在yolov9的源码中,提供了三种训练方式,分别对应单独主干训练,结合一条辅助分支训练,结合两条辅助分支训练,最高使用3+3+3个检测头计算loss,对应不同尺度的网络,使用对应的权重融合策略即可,以yolov9-c为例,:随着网络的不断加深,所提取得到的特征信息越来越语义化,越接近于下游的监督真值,信息丢失(提纯)的现象就越严重,但是作为一个主干网络或对于上游任务而言,应当不失偏颇地尽可能多地提取到图像地各种信息。pc测试,非量化(rknn_toolkit2)首先需要先提理论:信息损失。
2025-08-01 19:38:41
503
原创 SAM2 : Segment Anything in Images and Videos
但是不同于SAM, 需要分割的目标在视频中可能会出现遮挡,导致某些帧上可能不存在有效的目标,为了支持这种新的输出模式,SAM2添加了一个额外的头来预测当前帧是否存在有效的目标(基于mask和IoU的输出token完成)。我们将 8 帧的每个序列的最大mask数限制为 3 个随机选择的mask数。SAM2 将时间位置信息嵌入到 N 个最近帧的内存中,允许模型表示短期对象运动,而不是提示帧的运动,因为来自提示帧的训练信号更稀疏,并且更难适配到推理过程中,提示帧可能来自与训练期间看到的非常不同的时间范围。
2025-08-01 19:19:54
1560
原创 SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory
然而SAM2在预测后续帧的mask时,经常忽略运动信息,导致目标在快速移动或交互复杂的情况下不准确,在目标拥挤的场景中这种现象尤为明显,而SAM2倾向于优先考虑目标的外观相似性,而不是空间和时间的一致性,最终导致了跟踪错误。为了解决这一问题,我们提出将运动信息融合到SAM2的预测过程中,通过利用物体的历史运动轨迹,增强模型对于遮挡的相似物体间的跟踪能力。并不是非常稳健的指标,尤其是在存在相似目标相互遮挡的拥挤场景中,为此我们引入了一个额外的运动模型来跟踪目标的运动,并提供额外的运动分数来帮助选择mask。
2025-08-01 19:14:10
768
原创 Deep Height Decoupling for Precise Vision-based 3D Occupancy Prediction
根据上述观察结果,我们首先将高度分解为不同的区间 I = {[1,4],[5,8],[9,16]},然后在高度区间对特征进行分解,得到三个具有不同语义信息的子空间(L、M 和 H)。为了有效捕捉特定高度范围内的特征,我们利用高度mask剔除冗余的特征点,从而生成高度感知的特征图。并将其投影至对应高度子空间中。
2025-08-01 18:58:08
627
原创 Scene as Occupancy
OCCNet采用了级联的方式(解码过程被分为多个阶段,每个阶段都负责恢复特定的信息),通过多个级联阶段的迭代,从鸟瞰图特征中解码3D占据特征。OccNet则在两者间寻求一个平衡点,先通过BEVFormer的encoder得到带有时序信息的BEV特征,再通过级联的decoder恢复3D占据特征。将前一帧的特征通过当前帧的参数进行变换,对于典型的自注意力机制,每一个query都需要与所有的key和value进行匹配,在3D特征下,这需要消耗大量的算力。不同层级的decoder负责恢复不同高度尺度的信息。
2025-08-01 18:57:13
347
原创 AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Spla
本文提出了一种自动化的开放语义占据注释方法,该方法通过视觉-语言模型对特征图进行引导,以生成语义占据注释。设计了语义感知的高斯作为中心几何描述符,并且提出了一种累计高斯-体素的拼接算法,从而实现了有效且高效的占位注释。
2025-08-01 18:55:52
1190
原创 ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and
引入了一种采用深度去噪的占据感知自适应提升机制,以改进2D到3D特征变换的鲁棒性,并减少对深度先验的依赖。利用共享语义原型来共同约束2D和3D特征,从而加强3D特征和其原始2D模态之间的语义一致性。与基于置信度和类别的采样策略相辅相成,以应对 3D 空间中的长尾挑战。为了减轻在语义和光流联合预测的编码负担,提出了一种基于BEV基于体积代价的预测方法,该方法通过代价体积将光流和语义特征链接起来,并采用分类-回归监督方案来处理动态场景中变化的流尺度。
2025-08-01 18:14:33
914
原创 DL环境捉虫
一些开源工程的本地环境部署虽然不麻烦,但是总会遇到一些问题,本文旨在记录一些博主遇到的问题,二次遇到不用再重新Google和翻issue~
2025-08-01 16:30:04
354
原创 Offboard 3D Object Detection from Point Cloud Sequences
通过连续帧的信息来辅助进行3D检测,专注于离线的3D自动标注任务,与车载算法相比,遥遥领先。
2024-12-10 10:27:26
1103
原创 segment-anything-fast pytorch官方给出的优化版本
使用了许多新发布的功能,将Meta原始的SAM纯粹重写为PyTorch,并没有损失准确性:- Torch.compile PyTorch的原生JIT编译器,提供快速、自动融合PyTorch操作的功能- GPU量化加速采用降低精度操作的模型- Scaled Dot Product Attention (SDPA) Attention的新型、内存高效实现- Semi-Structured (2:4) Sparsity 使用更少的位数存储权重和激活的模型加速- Nested Tensor 高度优化的、用
2024-10-17 17:36:23
941
原创 Relation DETR
DETRs训练收敛慢的根源使用匈牙利匹配算法为每个真值匹配了唯一的预测正样本,而导致余下的预测结果均作为负样本干扰了训练进程,因此就需要更多的数据和训练轮次进行收敛。之前的工作更多的侧重于优化训练流程(增加额外的监督或优化损失函数)或提出特定的网络结构(优化query)。但是DETRs的核心在于MSA,而self-attention的关键在于提取数据间的关联关系,而输入self-attention的图像数据不会引入结构化偏置,因此。
2024-09-20 09:51:01
1198
原创 UniSeg
point-based保留了最完整的点云的特征和信息,但由于非结构化数据的特点,计算效率底下;Voxel-based实现数据对应的结构化,但体素的划分方式对点云的信息损失h有很大影响;View-based实现了紧凑的特征表征,可以通过2D conv完成后续任务,但是投影本身就破坏了原有的3D结构;RGB-image保留了丰富的语义信息,但缺乏空间信息。
2024-09-18 17:15:01
1233
原创 SphereFormer
采用球坐标进行特征处理,以解决立方滑动窗口对远处稀疏区域特征提取不足的问题。提出了适配的exponential-spiltting PE 和 动态特征选取机制。
2024-09-18 17:11:18
1229
1
原创 PPT(Point Prompt Training)
作者指出大规模3D点云d数据集的缺失限制了3D相关算法的发展,一种解决方法就是联合多个数据集训练一个模型。但是不同于图像,不同点云数据之前的差异是非常大的,直接联合训练反而会带来负面收益,因此本文提出了Point Prompt Training(PPT)来解决这一问题。
2024-09-18 09:53:48
1376
原创 Point Transformer V3
本篇论文不是寻求注意力机制的新的创新,而是平衡点云处理中准确性和效率的trade-offs。借鉴3D large-scale表示学习,作者认识到模型性能更受规模scale的影响,而不是复杂设计。因此作者提出Point Transformer V3 (PTv3),优先考虑简单性和效率。例如,将KNN替换成序列化的邻域映射*。这一准则支持大规模scaling,将感受野receptive field从16个点扩展到1024个点,同时保持高效(与PTv2相比,处理速度提高了3倍,内存效率提高了10倍)。
2024-09-14 14:07:05
1035
原创 ADB可以连接windows 但是无法连接虚拟机?
1.右击开始菜单–>运行->输入services.msc–>回车。2.找到 VMware USB 相关服务,点击启动。
2024-03-15 11:40:33
929
原创 浅析图像注意力机制
对于深度学习图像算法,已经内卷很严重了,没有点自注意力,新设计模块都拿不出手。借着知识整理的机会,总结一下之前了解到的图像自注意力机制,供大家八股 (不是),供大家参考学习。...
2022-06-28 15:27:15
2887
5
原创 ubuntu系统采坑合集(持续更新)
@20120785@bjtu.edu.cn算是从0学起,踩了很多坑,记录一下自己经历过的,也为大家提供一些经验。
2020-09-25 15:50:59
5047
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅