自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(260)
  • 资源 (4)
  • 收藏
  • 关注

原创 MapTRv2 论文学习

论文链接:https://arxiv.org/abs/2308.05736代码链接:https://github.com/hustvl/MapTR高精地图是为自动驾驶特别设计的高分辨率地图,包括实例级地图元素(人行横道、车道分隔线、路缘、中线等)的矢量化表示。高精地图包含了关于道路拓扑和交通规则的丰富的语义信息,这对自动驾驶车辆导航非常重要。传统的高精地图通过 SLAM 方法离线构建,带来许多的问题:因为这些限制条件,在线高精地图建图就越来越受到关注,它可以通过车载传感器实时地构建自车周围的地图,能很好地

2025-02-24 15:03:42 580

原创 MapTR 算法学习

论文链接:https://arxiv.org/abs/2208.14437代码链接:https://github.com/hustvl/MapTR高精地图是为自动驾驶特别设计的高精度的地图,包括了实例级的矢量化的地图元素表示(斑马线、车道线和路缘等),提供了丰富的道路拓扑语义信息和交通规则,这对自动驾驶车辆的导航至关重要。传统的高精地图建图是采用 SLAM 的方法,流程复杂、成本很高。最近,在线建图受到了广泛的关注,它通过车载传感器实时地构建自车周围的地图,降低了离线人工的成本。早期的研究主要采用了 li

2025-02-21 15:32:08 920

原创 DriveLM 论文学习

论文链接:https://arxiv.org/pdf/2312.14150代码链接:https://github.com/OpenDriveLab/DriveLM解决了什么问题?当前,自动驾驶方案的性能仍然不足。一个必要条件就是泛化能力,需要模型能处理未经训练的场景或不熟悉的传感器配置。其次时这些模型要能和人类用户做交互,例如欧盟法规要求部署模型具有可解释性。此外,人类司机驾驶并不是基于几何结构准确的 BEV 表示,这和今天的自动驾驶模型不同。人类司机会隐式地进行目标感知、预测和规划(称作 P1−3P

2024-11-12 20:35:00 899

原创 SparseDrive 论文学习

UniAD 提出了一个统一的查询设计,将多项任务整合为一个目标导向的模型,在感知、预测和规划任务上都取得了优异的表现。但是,之前的方法主要关注在场景学习,它们直接做预测和规划,没有充分地考虑这俩任务之间的相似性,极大制约了模型的性能。但是,在表现和效率方面,现有的方案都不太令人满意。有了运动预测的结果后,我们可以评估每条规划轨迹的碰撞风险,对于高碰撞风险的轨迹,我们降低这条轨迹的得分。虽然在以前的方法中,自车的特征通常是随机初始化的,但本文作者认为为了做规划,自车特征应该需要丰富的语义和几何信息。

2024-11-11 20:05:35 1098

原创 OmniDrive 论文学习

尽管之前的工作已经展示了 LLM-Agent 可以成功地应用在自动驾驶领域,但仍然需要一个全面和原则性的方法来完全地将 MMLM 的 2D 理解和推理能力扩展到复杂的 3D 场景中,以理解 3D 几何和空间关系。分辨率的图像作为输入。通过交叉注意力,将新的 queries 和当前帧的 perception queries 和 carrier queries 进行交互,扩展当前模型处理视频输入的能力,使之能有效地处理连续的帧。直接将 3D 物体的坐标和车道线的曲线表达输入给 GPT-4V,推理的效果并不好。

2024-10-09 23:10:40 1181

原创 VADv2 论文学习

VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning解决了什么问题?相关工作感知运动预测规划自动驾驶领域的大语言模型提出了什么方法?场景编码器概率规划训练分布损失冲突损失场景 Token 损失推理实验实验设定指标消融实验可视化论文链接:https://arxiv.org/abs/2402.13243代码链接:https://github.com/hustvl/VAD解决了什么问题?端到端自动驾驶最近变得非

2024-10-07 15:27:30 1077

原创 VAD 论文学习

论文地址:https://arxiv.org/abs/2303.12077代码地址:https://github.com/hustvl/VAD解决了什么问题?出于安全性考虑,自动驾驶需要对场景的全面理解;同时,为了实际部署考虑,也需要考虑到效率问题。自动驾驶车辆需要高效地感知驾驶场景,基于场景信息来做合理的规划。传统的自动驾驶方法采用了模块化范式,感知和规划被解耦成两个单独的模块。缺点就是,规划模块无法获取传感器的原始数据,而这些数据具有丰富的语义信息。规划模块完全基于前面的感知结果,感知模块的错误

2024-10-06 15:08:08 1850

原创 DriveVLM 论文学习

规划意图的场景理解定义如下。输入包括环视相机的多视图视频VV,以及可选的感知模块输出的 3D 感知结果PP。场景感知EEE:包括天气条件EweatherEweather​、时间EtimeE_{time}Etime​、道路条件EroadE_{road}Eroad​、车道条件ElaneE_{lane}Elane​。场景分析SSS:包括目标级分析和场景级摘要SSS。决策描述DDD:驾驶决策的详细描述。

2024-09-29 10:18:28 1250

原创 MVDream 论文学习

作者证明这个多视图扩散模型作为一个隐式的可泛化的 3D 先验,不依赖于特定的 3D 表示,能适用于不同的 3D 场景。具体来说,我们可以通过在自注意力中连接所有不同视图,将原始的2D自注意力层扩展到3D,如下图所示,我们发现这种方法即使在视图差距很大的情况下也能生成相当一致的图像。本文方法通过直接训练一个多视图(MV)DreamBooth模型,然后是对 3D NeRF 的优化,它利用了扩散模型的一致性优势,并简化了 3D 建模的过程。作者利用了3D 数据集渲染连续的多视图图像,监督扩散模型的训练。

2024-08-12 17:36:33 1123 2

原创 DreamFusion 论文学习

扩散模型在 text-to-image 任务上有显著的效果,如 DALLE.E2。然而 text-to-3D 由于 3D 模型数据集不足,导致直接训练 text-to-3D 的扩散模型相当困难。跳过了这种训练框架,利用 text-to-image 与 NeRF 技术,达到 text-to-3D 的生成。

2024-08-10 16:08:57 1283

原创 Zero123++ 论文学习

随着新视图生成模型的涌现,3D 内容生成领域取得了显著进展,这些模型利用了强大的 2D 扩散生成先验知识,这些 2D 扩散模型是在互联网上的大规模数据集训练得到的。如果没有全局条件,针对可见区域生成的内容还是不错的,但是对于不可见区域,则生成质量就急剧下降了,因为模型缺乏推理物体的全局语义的能力。Reference Attention 指的就是,在对模型的输入去噪时,对一个额外的参考图像使用去噪 UNet 模型,并将参考图像中得到的自注意力 key 矩阵和 value 矩阵附加到去噪模型的相应的注意力层。

2024-08-07 15:49:26 1729

原创 Zero123 论文学习

尽管Zero-1-to-3模型是在合成数据集上训练的,但它保持了强大的零样本泛化能力,能够很好地适应分布外数据集的图像,包括印象派绘画。定性和定量的实验表明,Zero-1-to-3方法通过利用互联网的大规模数据的预训练,显著优于现有的单视图3D重建和新视角合成模型。但是,将扩散模型扩展到3D领域将需要大量的昂贵的带注释的3D数据。然而,大多数现有的3D图像重建方法都是在封闭世界(closed-world)设置中操作的,这是因为它们依赖于昂贵的3D注释,例如CAD模型或特定类别的先验知识。

2024-08-06 21:45:50 1176

原创 InstantMesh 论文学习

论文链接:https://arxiv.org/abs/2404.07191代码链接:https://github.com/TencentARC/InstantMesh解决了什么问题?这项技术可以从单个视角的2D图像中生成3D模型,这有助于简化3D内容的创建过程。3D资产的生成可以应用于虚拟现实(VR)、工业设计、游戏开发和动画制作等多个领域。随着大规模扩散模型的出现,图像和视频生成领域经历了一场革命。这些模型在数十亿规模的数据上训练,能够根据开放式的提示生成生动和富有想象力的内容。尽管图像和视频生成取

2024-08-06 14:11:09 1488

原创 NeRF 论文学习

论文链接:https://arxiv.org/pdf/2003.08934代码链接:https://github.com/bmild/nerf解决了什么问题?计算机视觉领域最近的一个方向就是将物体和场景编码到 MLP 的权重里面,直接将 3D 空间位置映射到一个隐式表示,它不直接描述物体的表面,而是通过一些隐式函数(如等值面或距离函数)来定义物体的表面。例如,有符号距离函数(SDF)可以表示物体表面的距离,其中正值表示物体外部,负值表示物体内部。但是这种方法在生成逼真复杂几何场景方面的局限性,它在真实

2024-07-27 16:29:26 706

原创 NeuS 论文学习

从多视角图像重建物体的表面是计算机视觉和计算机图形学的基础课题。用神经隐式表征来做 3D 重建最近越来越受欢迎,一些方法将表面表示成 signed distance functions(SDF) 或占用。为了训练模型,这些方法使用一个可微的表面渲染方法,将 3D 物体渲染成图像,将它们和输入图像做比较进行监督。IDR 无法重建结构复杂的物体,会有突然的深度值变化。造成这个问题的原因是,IDR 使用的表面渲染方法只考虑了每条射线的单个的表面交点。

2024-07-26 18:04:11 572

原创 Wonder3D 论文学习

本文提出了一个多视角跨域的扩散机制,在两个不同的域上运行,生成多视角一致的法线图和彩色图。为了解决保真度、一致性、泛化性和效率的问题,本文提出了一个单视角 3D 重建方法,用一个跨域扩散模型来生成多视角、一致性的法线图和对应的彩色图像。为了增强不同视角的一致性,像 SyncDreamer 和 MVDream 一样,作者利用了注意力机制来促进不同视角的信息传递,隐式地编码多视角图像之间的关系,如下图所示。通过在注意力层共享不同视角的信息,扩散模型能够感知到多视角的关系,能够生成一致的多视角彩色图像和法线图。

2024-07-24 19:06:07 1413

原创 Era3D 论文学习

使用不同相机模型的输入图像来训练,任意焦距和拍摄高度的相机拍摄的图像都可以作为输入图像使用,而生成的图像都是正交的水平相机视角。然而,由于 Era3D 生成的图像都是正交和水平的视角,不同视角的图像的极线就是对齐的,如上图d 所示,作者就提出了一个高效的 row-wise attention 层。给定一个任意视角和焦距拍摄的图像,以标准的相机设定来生成其它视角的图像是非常困难的,因为这会给扩散模型增加一个额外的任务(隐式地推理相机的焦距和仰角)。尽管估计拍摄的仰角是可能的,但不太可能估计出输入图像的焦距。

2024-07-23 20:48:56 1239

原创 在 Ubuntu 22.04/20.04 安装 CVAT 和 SAM 指南

(-cs。

2024-07-21 20:16:07 2545 5

原创 YOLOv10 论文学习

此外,在“一对一”的匹配时,作者采用了 top-1 选项,取得的表现和匈牙利匹配一样,额外的训练时间要更少。为了在训练中省去 NMS,作者提出了双标签分配策略和一致的匹配度量,这样模型能在训练时获得丰富且均衡的监督信号,推理时无需 NMS,从而改善了表现、降低了推理延迟。由于训练的随机性,作者用相同的值来初始化这俩 heads,产生相同的预测结果,也就是说,对于每对预测-ground-truth,“一对一” head 和“一对多” head 输出相同的。但是,它们的计算成本是明显不同的。

2024-05-25 19:20:57 1814

转载 SNPE 的安装和简单使用

专为高通骁龙系列设计的 DNN 深度学习加速运行库,可以理解为一个在骁龙环境下可执行的机器学习后端,类比于 TensoRT 或 ONNX。

2024-05-10 16:44:00 570

原创 GhostNetV2 Enhance Cheap Operation with Long-Range Attention 论文学习

实际上,CNN 的特征图通常是 low-rank 的,并不需要将不同空间位置的所有的输入和输出 tokens 都密集地连接起来。在 DFC 注意力中,一个区域只和它水平和垂直方向的区域做直接的融合,而其它区域只参与受关注 token 的水平和垂直方向的区域的生成,它们与受关注 token 只有间接的关联。对于相同的输入,Ghost 模块和 DFC 注意力是两个平行的分支,从不同的角度提取信息。因此,作者通过水平和垂直方向的下采样来降低特征图尺寸,这样 DFC 注意力的所有操作都可以在更小的特征上进行。

2024-05-07 21:24:29 1088

原创 MobileNetV4 论文学习

换句话说,MNv4模型能够使用昂贵的层,这些层虽然会不成比例地提高准确性,但不会同时承受这些层的联合成本,从而在所有ridge points(可能指特定的性能评估点或模型参数设置点)上主要实现了帕累托最优性能。受到 MQA 启发,它对 queries, keys, values 使用了非对称的计算,作者在优化的 MQA 中加入了空间降维注意力(spatial reduction attention),缩小 keys 和 values 的分辨率,但保持高分辨率的 queries。硬件处理器和内存的理论上限。

2024-04-29 14:25:23 2195

原创 GhostNetV3 论文学习

但是这些网络的训练策略仍借鉴于传统的模型,这就忽视了它们在模型性能上的差异,可能制约精简模型的表现。GhostNets 在移动设备上取得了 SOTA 表现,核心模块就是 Ghost 模块,通过低成本操作产生更多的特征图,从而替代原有的特征图。受到传统模型训练的启发,作者对这两个模块使用了重参数化,实现更好的表现。但是,人们提出的训练策略很多是针对传统模型的,很少有针对精简模型的。直接将传统模型的训练策略照搬在精简模型上是不恰当的。KD 是模型压缩的常用方法,大教师模型预测的结果作为小型学生模型的学习目标。

2024-04-27 14:57:37 956

原创 MetaFormer A Unified Meta Framework for Fine-Grained Recognition 论文学习

在每个阶段的开始位置,降低输入的大小,以实现不同的尺度。MetaFormer 也能看作为一个混合主干架构,卷积操作下采样图像,加入卷积的归纳偏置,transformer 融合视觉和元信息。但是,大多数的 FGVC 方法都是用 ImageNet-1K 预训练的,制约了细粒度识别的进一步探索。因此,学习视觉信息要更加困难,如果在网络训练的开始阶段,就将大量的辅助信息输入网络,网络的视觉能力会受到损害。直觉上,物种的分布可以在地理上得到体现,不同种类的栖息地是不同的,于是时空信息可以辅助物种的细粒度分类任务。

2024-04-14 16:28:22 877

原创 Trajectory-guided Control Prediction for End-to-end Autonomous Driving论文学习

端到端自动驾驶方法直接将原始传感器数据映射为规划轨迹或控制信号,范式非常简洁,从理论上避免了多模块设计的错误叠加问题和繁琐的人为规则设计。当前的端到端自动驾驶方法主要有两条独立的研究路线,要么基于规划轨迹来运行控制器,要么直接预测控制信号。端到端模型的预测输出一般有两种形式:轨迹/路径点和直接控制动作。但是,至于哪一种更好仍没有定论。可以直接用于车辆上,而则需要额外的控制器如 PID 控制器来将规划轨迹转化为控制信号。

2023-11-04 22:57:57 612

原创 BEV-YOLO 论文学习

出于安全和导航的目的,自驾感知系统需要全面而迅速地理解周围的环境。目前主流的研究方向有两个:第一种传感器融合方案整合激光雷达、相机和毫米波雷达,和第二种纯视觉方案。传感器融合方案的感知表现鲁棒,但是成本高,所要面临的环境挑战不少,因此大规模部署不太现实。纯视觉方案只依赖于相机传感器做感知,成本低廉,可以持续迭代。因此,纯视觉方案可能是自动驾驶行业的终极方向。目前,纯视觉领域的研究焦点就是如何生成环境 BEV 图,赋能车载感知系统。

2023-11-04 21:44:07 1641 3

原创 UniAD 论文学习

当前的自动驾驶方案大致由感知(检测、跟踪、建图)、预测(motion、occupancy)和规划三个模块构成。为了实现各种功能,智驾方案大致包括两种路线。一种是针对每个任务都部署一个模型,该范式能降低各团队间的研发困难度,但由于各个优化目标是孤立的,会引发模块之间信息丢失、错误累加和特征不对齐的问题。另一种是多任务的设计路线,多个任务 heads 共享一个特征提取器,该范式能节省边缘计算平台的资源消耗,并且扩展性强,但会带来“负迁移”的问题。

2023-10-08 23:53:17 1644

原创 Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks 论文学习

对于一个多任务损失函数Lt∑witLitLt∑wi​tLi​t,目的是学习函数witw_i(t)wi​t将不同任务的梯度范数置于一个区间,这样我们能得出它们的相互影响的大小;动态调节梯度范数,不同的任务可以相同的速率学习。首先,作者定义一些关于梯度的相关量:WWW:我们要应用 GradNorm 的网络权重W⊂WW⊂W的子集。为了节约计算成本,WWW通常用权重最后一个共享层。

2023-09-25 12:47:12 176

原创 FairMOT 论文学习

现有的多目标跟踪方案将目标检测和 reID 任务放在一个网络里面优化学习,计算效率高。目标检测首先在每一帧中检测出兴趣目标,要么将其与现有的轨迹关联起来,要么创建一个新的轨迹。这两个任务会相互竞争,现有的方法都将 reID 任务列为次优先级任务,而检测任务为主优先级,reID 的准确率受检测影响很大,这对 reID 不公平。当场景中目标很多时,先检测再跟踪的方式无法取得实时的效果,因为这两个模型并不共享特征,需要对每个目标框分别使用 reID 模型。

2023-09-25 12:43:49 365

原创 StrongSORT 论文学习

现有的 MOT 方法大致可分为 tracking-by-detection 和 joint-detection-association 两种方式。尽管 joint-detection-association 获得了更多的关注度,取得了与前者相近的表现,作者认为在跟踪的准确率方面 tracking-by-detection 方式仍是最优的。本文认为,DeepSORT 表现不如 SOTA 方法,是因为 DeepSORT 所使用的技术落伍了,而非其跟踪方式的问题。此外,现有的方法。

2023-09-25 12:39:22 619

原创 ByteTrack 论文学习

多目标跟踪是在给定的视频片段中,预测出目标的边框和 ID 信息。现有方法需要在 true positives 和 false positives 之间做取舍,将高于一定阈值的检测框关联起来,获取其 ID。而那些低得分的目标(如被遮挡物体)会被舍弃,造成一些真实目标丢失、轨迹断断续续的问题。如下图,在t1​帧初始化了三个不同的 tracklets,其得分高于0.5。但在t2​和t3​帧出现了遮挡,红框对应的得分就从0.8降到了0.4,然后降到了0.1。因为阈值是0.5。

2023-09-25 12:34:54 481

原创 CenterTrack 论文学习

早期的跟踪方法依赖于低层级的信息,如角点和热力图极值点。Tracking-by-detection 方法则依赖于一个准确的目标检测器,然后通过复杂的关联策略将不同时间点的检测框联系起来。

2023-09-25 12:31:38 526

原创 Improved Baselines with Momentum Contrastive Learning 论文学习

最近的非监督表征学习关注在对比学习上。在检测和分割任务上,MoCo 的非监督预训练表现优于在 ImageNet 监督预训练的表现;在线性分类表现上,SimCLR 进一步缩小了非监督和监督预训练的差距。

2023-09-25 11:33:12 270

原创 Momentum Contrast for Unsupervised Visual Representation Learning 论文学习

非监督学习在自然语言处理非常成功,如 GPT 和 BERT。但在计算机视觉任务上,监督预训练方法要领先于非监督的方法。这种差异可能是因为各自的信号空间不同,语言任务有着离散的信号空间(单词、短语等)来构建非监督学习所需的字典。而计算机视觉则很难构建一个字典,因为原始信号位于连续的高维空间,不像单词一样是结构化的。最近的非监督表征学习方法使用对比损失取得了不错的效果,它们基本是构建了一个动态字典。从数据中采样,产生字典的 keys/tokens,由编码器网络表征。

2023-09-25 11:29:05 301

原创 DAMO-YOLO 论文学习

工业界追求高性能、低延迟的目标检测算法,研究人员于是聚焦于单阶段目标检测,探索高效的网络结构和训练策略。YOLOv5/v6/v7、YOLOX 和 PP-YOLOE 在 COCO 数据集上实现了不错的精度-速度平衡,得到广泛应用,但它们仍有提升空间。

2023-07-25 14:30:26 599 1

原创 YOLOX-PAI 论文学习

对 YOLOX 做加速,在单张 Tesla V100 上取得了42.8mAP,推理速度为 1 毫秒。

2023-07-25 14:13:23 332 1

原创 PP-YOLOE 论文学习

单阶段目标检测器能很好地平衡速度和精度,YOLO 系列是其中的代表。YOLOX 采用了 anchor-free 范式,加入了动态标签分配以提升检测表现,在 Tesla V100 上取得了 50.1 mAP,速度是 68.9 FPS。本文提出的 PP-YOLOE 为了适配各种硬件平台,没有使用可变形卷积、Matrix NMS 等操作。如下图,PP-YOLOE 在速度和精度方面领先于 YOLOX 和 YOLOv5。

2023-07-25 14:10:38 282

原创 YOLOv7 论文学习

实时的目标检测器是计算机视觉系统的重要组成部分。目前应用在 CPU 端的实时目标检测方法大多基于 MobileNet、ShuffleNet、GhostNet,而用在 GPU 的实时目标检测方法大多基于 ResNet、DarkNet、DLA,然后使用 CSPNet 策略来优化网络架构。本文方法主要侧重于优化训练的过程,而非模型架构。这些优化方法会增加一定的训练成本,提升检测的表现,但不会增加推理成本。本文没有尝试自监督学习或知识蒸馏方法,它们需要更多的训练数据或更大的模型。开始在目标检测领域流行起来。

2023-07-25 13:49:03 345 1

原创 YOLOv6 论文学习

吸收了学术圈和工业界最新的目标检测方法,包括网络结构、训练策略、测试技巧、量化和优化方法。

2023-07-25 13:43:46 349

原创 Training-Time-Friendly Network for Real-Time Object Detection 论文学习

目前的目标检测器很少能做到快速训练、快速推理,并同时保持准确率。直觉上,推理越快的检测器应该训练也很快,但大多数的实时检测器反而需要更长的训练时间。准确率高的检测器大致可分为两类:推理时间久的的训练时间久的。推理时间久的检测器一般依赖于复杂的后处理逻辑或沉重的检测 head。尽管这些设计能提升准确率和收敛速度,但是推理速度很慢,不适合实时应用。为了降低推理速度,人们尝试去简化检测 head 与后处理,同时能维持准确率。

2023-07-25 13:39:26 1228

DeepLab v3 论文

DeepLab v3 - Rethinking Atrous Convolution for Semantic Image Segmentation 是语义分割相关的论文,效果不错。

2019-04-30

Pyramid Scene Parsing Network.pdf

Pyramid Scene Parsing Network 是关于语义分割的论文,效果不错。

2019-04-30

Git Tutorial

This helps you to learn Git techniques so that you can use better mange your projects.

2018-07-27

PostgreSQL Tutorial

PostgreSQL Tutorial, English Version. If you are interested, it is free to download.

2018-07-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除