自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 FFmpeg 学习路径

通过以上详细目录,你可以系统性地掌握 FFmpeg API,从基础接口到高级应用均有所涉及。建议在学习过程中多做实验、阅读源码,不断总结和实践,这样才能更好地理解 FFmpeg 的强大功能和底层实现。通过源码阅读了解 FFmpeg 的内部设计和实现,必要时可设置断点、打印调试信息来追踪数据流动。从简单的示例程序开始,逐步扩展到更复杂的应用程序。先了解数据结构和核心流程,再深入高级应用。利用论坛、博客、开源项目等多种渠道,与其他开发者交流经验和问题。

2025-02-10 11:19:50 1165

原创 MonoCD 论文解读

3.2. 互补深度的影响(The Effect of Complementary Depths)为了证明互补深度(Complementary Depths)的有效性,我们从数学角度分析其优越性。图 3. 在 KITTI 验证集上评估互补深度的效果。评估指标为AP40,针对0.7 IoU 阈值下的中等难度(moderate)Car 类别。左图:不同比例的翻转样本实现了不同程度的互补性。右图:固定翻转样本的比例为50%,并在翻转的深度预测分支上施加不同幅度的随机扰动。

2025-02-01 10:24:19 771

原创 VIT 论文解读

尽管架构已经成为自然语言处理任务的事实标准(de-facto standard),但其在计算机视觉领域的应用仍然有限。在视觉任务中,注意力机制(attention)通常与卷积网络(CNN)结合使用,或者仅用来替换卷积网络中的某些组件,同时保留CNN的整体结构。我们证明了,这种对CNN的依赖并非必要,直接将纯粹的Transformer应用于图像块(patch)序列,也能在图像分类任务中表现出色。

2025-01-26 10:08:53 808

原创 C++ 学习

Red,Green,Blue// 使用枚举类时需要使用作用域解析符// 输出 1return 0;在枚举类中,枚举值需要使用Color::Red等格式访问。由于枚举类的作用域是封闭的,因此避免了传统枚举中可能出现的命名冲突。

2025-01-16 14:50:51 1103

原创 DETR 论文解读

我们提出了一种将目标检测视为直接集合预测问题的新方法。我们的方法简化了检测管道,有效地去除了许多手工设计的组件,如非最大抑制程序或锚点生成,这些组件显式地编码了我们对任务的先验知识。该框架的主要成分称为DEtection TRansformer(简称DETR),它包括一个基于集合的全局损失,通过二分匹配强制唯一预测,并且采用了一个Transformer编码器-解码器架构。给定一组固定的小规模学习对象查询,DETR能够推理对象之间的关系以及全局图像上下文,从而并行地输出最终的预测结果。

2025-01-02 09:44:23 1059

原创 不安全物联网的轻量级加密:综述

本文综述了针对物联网(IoT)的轻量级加密解决方案。这项综述全面覆盖了从轻量级加密方案到不同类型分组密码的比较等多个方面。同时,还对硬件与软件解决方案之间的比较进行了讨论,并分析了当前最受信赖且研究最深入的分组密码——高级加密标准(AES)——在架构、列混合/Mix-Column和S盒/S-box修改策略,以及物联网安全相关攻击等方面的最新研究方法。研究表明,轻量级AES在资源受限的物联网设备中已经被证明是一种有效的安全解决方案。

2024-12-28 20:12:48 1483

原创 MonoDTR 论文解读

单目3D目标检测在自动驾驶中是一个重要但具有挑战性的任务。一些现有的方法利用离线深度估计器提供的深度信息来辅助3D检测,但这会增加额外的计算负担,且因深度先验不准确而导致性能受限。为了解决这些问题,我们提出了MonoDTR,一种新型的端到端深度感知Transformer网络,用于单目3D目标检测。此外,不同于传统的像素级位置编码,我们引入了一种新颖的深度位置编码(DPE),将深度位置信息注入到Transformer中。我们提出的深度感知模块可以轻松地集成到现有的基于图像的单目3D目标检测器中,以提升其性能。

2024-11-09 10:15:58 1111

原创 MonoCD: 单目 3D 物体检测与互补深度

单目 3D 物体检测由于其能够从单张图像中低成本地准确获取物体 3D 定位的潜力,受到了广泛关注。深度估计是单目 3D 物体检测的一个重要但具有挑战性的子任务,因为从2D 到 3D 的映射是不适定的。许多方法探索多个局部深度线索,如物体高度和关键点,然后将物体深度估计表述为多个深度预测的集成,以缓解单一深度信息的不足。然而,现有的多个深度预测的误差往往具有相同的符号,这阻碍了它们相互中和,限制了组合深度的整体精度。为了缓解这个问题,我们提出通过两个新的设计来增加深度的互补性。首先,

2024-10-08 10:40:50 1165

原创 Cut, Paste and Learn方法解读

我们的主要洞见是,像Faster R-CNN这样的最先进的检测方法,甚至是较老的方法(如DPM等),在检测中更关注局部区域特征,而不是全局场景布局。这些像素空间中的小瑕疵在通过卷积网络的层次传播时,会导致明显不同的特征,训练算法往往会关注这些差异来检测物体,而忽略了建模物体的复杂视觉外观。在合成数据的研究光谱上,有的工作侧重于生成单个物体在随机背景上的图像,有的则渲染整个场景,而该段作者的研究则位于中间,通过组合真实的物体图像和背景图像来创建新的训练场景。通过合成数据,我们可以确保实例和视点的良好覆盖。

2024-08-17 10:48:50 670 1

原创 GupNet :用于单目三维目标检测的几何不确定性投影网络

几何投影是一种强大的单目3D物体检测深度估计方法。它依赖于高度来估计深度,从而在深度模型中引入了数学先验。这种特性导致深度推断不可控,并且损害了训练效率。具体来说,我们提出了一个GUP模块,这不仅为每个深度提供了高可靠的,还有助于深度学习。此外,在训练阶段,我们提出了一种分层任务学习策略,以减少由于错误放大引起的不稳定性。这种学习算法通过一个提出的指标监控每个任务的学习情况,并根据其前置任务的情况自适应地分配适当的损失权重。

2024-07-23 15:01:23 1011

原创 Lite-Mono:一种轻量级的CNN和Transformer架构,用于自监督单目深度估计

这段文字介绍了一种无需真实数据(ground truth)进行训练的自监督单目深度估计方法,该方法近年来备受关注。重点在于设计轻量级但有效的模型,以便能够在边缘设备上部署。许多现有架构通过使用更重的骨干网络来提升性能,但代价是模型的体积增大。本文提出了一种名为Lite-Mono的混合架构,既轻量级又能实现与现有方法相当的效果。具体来说,本文研究了卷积神经网络(CNNs)和变换器(Transformers)的高效结合,提出了一个混合架构Lite-Mono。

2024-07-10 21:42:27 2607

原创 MonoLSS:用于单目3D检测的可学习样本选择

在自动驾驶领域,单目3D检测是一项关键任务,用于估计单个RGB图像中物体的3D属性(深度、尺寸和方向)。之前的研究工作在学习3D属性时,以启发式的方式使用特征,而没有考虑到不适当的特征可能会产生负面影响。在本文中,引入了样本选择的概念,即只应训练适合的样本来回归3D属性。为了自适应地选择样本,我们提出了一个可学习的样本选择(LSS)模块,该模块基于Gumbel-Softmax和相对距离样本划分器。LSS模块在预热策略下工作,从而提高了训练的稳定性。此外,MixUp3D的数据增强方法。

2024-07-07 21:11:45 1086

原创 LPCG论文解读

单目3D目标检测是自动驾驶和计算机视觉领域中的一个挑战性任务。通常,以前的研究使用手动标注的3D框标签,这种标注过程成本高昂。然而,本文提出一个有趣且反直觉的发现:在单目3D检测中,精确和细致标注的标签可能并不是必要的。使用随机扰动的粗略标签,检测器可以达到与使用真实标签非常接近的精度。我们深入探讨了这一潜在机制,并实证发现:在标签的准确性方面,3D位置部分比其他部分更为重要。

2024-06-28 14:47:06 1003

原创 MonoDLE 论文解读

从单目图像估计三维边界框是自动驾驶中的一个重要组成部分,而从这种数据中进行准确的三维物体检测非常具有挑战性。在这项工作中,通过大量的诊断实验,我们量化了每个子任务所引入的影响,发现“定位误差”是限制单目三维检测的关键因素。此外,我们还研究了定位误差背后的深层原因,分析了它们可能带来的问题,并提出了三种策略。首先,我们重新审视了二维边界框中心与三维物体投影中心之间的不对齐,这是导致低定位精度的一个关键因素。其次,我们观察到现有技术几乎不可能准确定位远处的物体,而这些样本会误导所学习的网络。

2024-06-24 09:55:11 2014

原创 MonoFlex论文解读

原文从单张图像中精确定位3D物体而没有深度信息是一个非常具有挑战性的问题。大多数现有方法对于所有物体都采用相同的方法,而不考虑它们的多样化分布,导致对截断物体的性能有限。本文提出了一种用于单目3D物体检测的灵活框架,该框架明确地将截断物体分离出来,并自适应地结合多种方法进行物体深度估计。具体来说,我们分离了特征图的边缘部分以预测长尾截断物体,从而不影响正常物体的优化。此外,我们将物体深度估计公式化为直接回归的物体深度和从不同组关键点解决的深度的不确定性引导集合。

2024-06-20 16:32:37 770

原创 SMOKE 论文解读

估计物体的 3D 方向和平移对于无基础设施的自主导航和驾驶至关重要。在单眼视觉的情况下,成功的方法主要基于两个要素:(i)生成2D区域建议的网络,(ii)利用获取的感兴趣区域预测3D物体姿态的R-CNN结构。我们认为 2D 检测网络是冗余的,并且为 3D 检测引入了不可忽略的噪声。因此,本文提出了一种名为SMOKE的新型三维目标检测方法,该方法通过将单个关键点估计与回归的三维变量相结合来预测每个检测到的物体的三维边界框。

2024-06-07 15:09:02 735

原创 相机标定原理

由于摄像机与被摄物体可以放置在环境中任意位置,这样就需要来表示摄像机和被摄物体的位置,这个在环境中建立一个坐标系坐标系就成为世界坐标系。其中tx、ty、tz 分别为xyz上的平移。世界坐标系转换为像素坐标系。

2024-06-04 09:58:59 424

原创 RTM3D: 论文翻译

3D目标检测是自动驾驶中场景感知和运动预测的重要组成部分[2,10]。目前,大多数强大的3D探测器都严重依赖3D激光雷达激光扫描仪,因为它可以提供场景位置[9,48,43,31]。然而,基于激光雷达的系统价格昂贵,不利于嵌入到当前的车辆形状中。相比之下,单目相机设备更便宜、更方便,这使得它在许多应用场景中越来越受到关注[7,28,42]。在本文中,范围我们的研究在于仅从单目RGB图像进行3D物体检测。

2024-05-31 22:05:47 1623

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除