深度学习开源工程
文章平均质量分 74
深度学习开源工程
瞻邈
老菜鸟一个。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
FASTer运行笔记
FASTer框架安装与使用指南 本指南提供了长时序激光雷达3D目标检测框架FASTer的完整安装和使用流程。该框架采用Transformer架构,通过焦点Token获取与自适应缩放机制,有效解决了长序列数据处理中的计算冗余问题。 1. 环境配置 创建Python 3.8虚拟环境 安装PyTorch 2.0及CUDA 11.8支持 配置关键依赖项:numpy、tensorflow、spconv等 通过setup.py完成框架安装 2. 数据集准备 NuScenes数据集: 下载官方数据集并规范目录结构 安装n原创 2025-11-13 12:00:13 · 1131 阅读 · 0 评论 -
LION运行笔记
LION是华中科技大学与百度团队提出的新型3D点云检测框架,通过引入线性循环神经网络(LRNN)显著提升长序列建模能力。安装需配置Python3.8环境,安装PyTorch等基础依赖及点云处理相关库(如spconv-cu118)。数据准备基于NuScenes数据集,需下载并按照指定目录结构组织数据,安装nuscenes-devkit(1.0.5)后运行数据处理脚本生成标注信息。该框架通过线性RNN有效平衡计算效率与检测精度,为点云处理提供新思路。原创 2025-11-11 00:15:25 · 561 阅读 · 0 评论 -
seqtrack3d 运行笔记
本文介绍了在conda环境中安装SeqTrack3D所需依赖的完整流程。首先创建并激活Python 3.9的conda环境,然后依次安装PyTorch系列(2.1.0版本)、NumPy等基础库。接着配置Pointnet2_PyTorch项目及其依赖项,并安装pomegranate等特定版本库。最后完成包括pyquaternion、pytorch-lightning、nuscenes-devkit等辅助工具链的安装。整个安装过程通过指定版本号确保环境兼容性,为3D目标跟踪系统SeqTrack3D搭建了完整的运原创 2025-11-05 11:17:14 · 237 阅读 · 0 评论 -
清华开源 VLA 数据集:面向自动驾驶极端场景,安全提升35%
《ImpromptuVLA:面向非结构化道路的开放权重与数据驱动的视觉-语言-动作模型》提出了一套专为解决自动驾驶在非结构化场景(如乡村道路、施工区域等)数据匮乏问题的大规模数据集。该数据集从8个公开来源精选8万条视频片段,涵盖边界模糊道路、临时交通规则变动等四大挑战场景,采用视觉-语言模型进行多任务标注并经人工核验。实验表明,基于该数据集训练的模型在NeuroNCAP测试中碰撞率降低7%(72.5%→65.5%),轨迹预测L2误差达0.30m,接近专用方法性能。研究为开发适应复杂场景的自动驾驶系统提供了关转载 2025-10-19 18:48:36 · 377 阅读 · 0 评论 -
FastTracker:从“识人”到“识万物”,一个更通用的多目标跟踪框架
FastTracker:新一代通用多目标跟踪框架 摘要:针对当前多目标跟踪系统在非行人场景泛化能力不足的问题,FastTracker提出创新解决方案。该系统采用"检测后跟踪"范式,创新性地引入两项关键策略:1)"遮挡感知"机制通过速度抑制和检测框放大处理严重遮挡问题;2)"道路结构感知"利用语义场景先验修正轨迹。实验表明,FastTracker在MOT17/20基准测试中HOTA分别达66.4/65.7,同时发布了包含9类交通目标的FastTrac转载 2025-10-17 23:42:15 · 207 阅读 · 0 评论 -
DINOv3上手指南:改变视觉模型使用方式,一个模型搞定分割、检测、深度估计
DINOv3是Meta推出的突破性自监督视觉模型,其核心优势在于冻结主干网络仅需训练轻量级任务头即可实现密集预测任务SOTA。该模型在16.89亿图像上预训练,支持跨领域零微调应用,通过改进训练目标(加入iBOT掩码建模、Gramanchoring等)显著提升特征质量。提供ViT(21M-67亿参数)和ConvNeXt系列模型,支持遥感专用版本。实测显示冻结主干下,ViT-7B在ADE20K分割任务达60.7mIoU。模型输出含[CLS]token、4个寄存器token和特征图,需确保输入尺寸为16的倍数。转载 2025-10-10 12:39:49 · 540 阅读 · 0 评论 -
双目深度估计大模型 FoundationStereo
本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。通过构建大规模(100 万立体图像对)合成训练数据集,结合自动自筛选流程去除模糊样本,并设计了网络架构组件(如侧调谐特征主干和远程上下文推理)来增强可扩展性和准确性。这些创新显著提升了模型在不同领域的鲁棒性和精度,为零样本立体深度估计设立了新标准。相关论文 FoundationStereo: Zero-Shot Stereo Matching 获得 CVPR 2025 满分评审,代码已开源。转载 2025-04-09 13:43:45 · 991 阅读 · 0 评论 -
PyTorch中DistributedDataParallel使用笔记
在pytorch中的多GPU训练一般有2种DataParallel和DistributedDataParallel,DataParallel是最简单的的单机多卡实现,但是它使用多线程模型,并不能够在多机多卡的环境下使用,所以本文将介绍DistributedDataParallel,DDP 基于使用多进程而不是使用多线程的DP,并且存在GIL争用问题,并且可以扩充到多机多卡的环境,所以它是分布式多GPU训练的首选。原创 2023-09-22 13:48:24 · 975 阅读 · 0 评论 -
BEVFormer代码阅读
正负样本的定义用到的就是匈牙利匹配算法,分类损失和类似回归损失的总损失和最小;类回归损失的计算代码如下:这里介绍一下,gt_box 的表示方式,gt_box 的维度是九维的,分别是 [xc,yc,zc,w,l,h,rot,vx,vy];而预测结果框的维度是十维的,所以要对 gt_box 的维度进行转换,转换为的维度表示为 [xc,yc,w,l,cz,h,rot.sin(),rot.cos(),vx,vy]计算类回归损失(L1 Loss)原创 2024-04-15 09:42:47 · 2971 阅读 · 0 评论 -
SAM2运行笔记
文章标题:SAM 2: Segment Anything in Images and Videos。原创 2025-01-25 15:20:29 · 853 阅读 · 0 评论 -
FreeReg运行笔记
文章标题:FREEREG: IMAGE-TO-POINT CLOUD REGISTRATION LEVERAGING PRETRAINED DIFFUSION MODELS AND MONOCULAR DEPTH ESTIMATORS匹配是图像到点云配准的基本问题。然而,由于图像和点之间的模态差异,通过现有的特征匹配度量学习方法很难学习鲁棒性和判别性的跨模态特征。我们建议首先通过预训练的大型模型来统一图像和点云之间的模态,然后在同一模态内建立鲁棒的对应关系,而不是在跨模态数据上应用度量学习。原创 2024-06-06 12:40:27 · 844 阅读 · 15 评论 -
EscherNet运行笔记
文章标题:EscherNet: A Generative Model for Scalable View Synthesis。原创 2025-01-09 18:00:18 · 336 阅读 · 0 评论 -
BEVFormer代码运行笔记
注意:根据你的cuda版本选择相应的版本,并注意它们之间的版本依赖关系。把Mini的压缩包都放在同一个目录,例如名为v1.0-mini,然后解压,解压的时候会有一些目录合并。把全量的压缩包都放在同一个目录,例如名为v1.0-full,然后解压,解压的时候会有一些目录合并。把v1.0-mini改名为v1.0-trainval,这样得到的目录是。需要下载TrainVal, Test和can_bus,得到如下文件。需要下载Mini, Test和can_bus,得到如下文件。使用conda创建环境。原创 2024-03-13 13:16:36 · 1827 阅读 · 0 评论 -
NViST运行笔记
文章标题:NViST: In the Wild New View Synthesis from a Single Image with Transformers 创建环境 进入环境安装torch torchvision torchaudio 安装其它依赖2. 数据下载与预处理2.1. 获取下载地址和密码点击链接 https://docs.google.com/forms/d/e/1FAIpQLSfU9BkV1hY3r75n5rc37IvlzaK2VFYbdsvoh原创 2024-12-02 20:45:48 · 1085 阅读 · 0 评论 -
Splatter Image运行笔记
文章标题:Splatter Image: Ultra-Fast Single-View 3D Reconstruction。原创 2024-12-09 18:31:46 · 2777 阅读 · 1 评论 -
ViewFusion运行笔记
文章标题:ViewFusion: Towards Multi-View Consistency via Interpolated Denoising。原创 2025-01-09 18:01:18 · 613 阅读 · 0 评论
分享