
感知算法
文章平均质量分 94
共勉~~
优惠券已抵扣
余额抵扣
还需支付
¥49.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
一颗小树x
计算机专业,某车企的算法工程师;曾获华为云-云享专家,华为云-云创 首席贡献官,阿里云-专家博主等荣誉。
展开
-
如何使用 ONNX 结合 GPU 加速推理(CUDA 与 cuDNN 简明指南)
在深度学习模型推理中,使用 GPU 进行加速是提升模型推理速度的关键方式之一。本文将带大家一步步了解如何使用 ONNX Runtime 结合 NVIDIA 的 CUDA 和 cuDNN 进行 GPU 加速。原创 2024-09-10 23:02:48 · 6712 阅读 · 0 评论 -
Python 应用程序 | 打包为| .exe可执行文件
PyInstaller 是一个用于将 Python 应用程序打包为独立可执行文件的工具。它将 Python 脚本以及脚本所依赖的所有库和模块打包成一个文件夹或单个可执行文件,使得最终用户无需安装 Python 环境即可运行应用程序。跨平台支持: PyInstaller 支持 Windows、macOS 和 Linux 等主流操作系统,可以生成适用于这些平台的可执行文件。自动分析依赖项: PyInstaller 会自动分析你的 Python 脚本并识别出所有依赖项,包括标准库、第三方库和数据文件。原创 2024-08-18 20:37:52 · 1464 阅读 · 0 评论 -
PyInstaller问题解决 onnxruntime-gpu 使用GPU和CUDA加速模型推理
在模型推理时,需要使用GPU加速,相关的CUDA和CUDNN安装好后,通过onnxruntime-gpu实现。直接运行python程序是正常使用GPU的,如果使用PyInstaller将.py文件打包为.exe,发现只能使用CPU推理了。本文分析这个问题和提供解决方案,供大家参考。原创 2024-09-07 23:30:36 · 1002 阅读 · 0 评论 -
【多传感器融合】BEVFusion: 多任务-多传感器融合框架 ICRA 2023
BEVFusion ICRA 2023| MIT提出的。它是一个为多任务、多传感器融合提供了一个高效、通用且任务可拓展的框架。通过在共享的BEV空间中统一多模态特征,并保持几何结构和语义密度,它支持广泛的3D感知任务(检测、分割、预测等)原创 2023-12-03 20:38:04 · 1228 阅读 · 0 评论 -
【占用网络】SurroundOcc:基于环视相机实现3D语义占用预测 ICCV 2023
本文分享“占用网络”方案中,来自ICCV 2023的SurroundOcc,它基于环视相机实现3D语义占用预测。使用空间交叉注意力将多相机图像信息提升到3D体素特征,即3D体素Query到2D图像中查询融合特征的思想。然后使用3D卷积逐步对体素特征进行上采样,并在多个层次特征图上进行损失监督。同时,SurroundOcc介绍了如何通过多帧点云,构建稠密的3D语义占用栅格数据集,这部分也是挺重要的。清华大学云盘。原创 2024-01-10 23:57:01 · 1819 阅读 · 0 评论 -
【占用网络】FlashOcc:快速、易部署的占用预测模型
FlashOcc是一个快速、节约内容、易部署的占用预测模型。它首先采用2D卷积提取图形信息生成BEV特征。然后通过通道到高度变换(channel-to-height transformation),将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。原创 2024-01-14 18:12:24 · 687 阅读 · 0 评论 -
【占用网络】VoxFormer 基于视觉的3D语义场景方案 CVPR 2023
本文分享“占用网络”方案中,来自CVPR2023的VoxFormer,它基于视觉实现3D语义场景补全。使用Deformable Attention从图像数据中,预测三维空间中的体素占用情况和类别信息。VoxFromer是一个两阶段的框架第一个阶段:预测每个像素的深度值,将像素投影三维空间中,2D图像到3D空间的思想。然后预测每个三维网格是否被占用,生成稀疏体素特征。最后选择其中是“占用”的体素作为“体素查询特征”进入第二阶段。这个阶段只预测占用情况,选择一些值得分析的体素。第二个阶段。原创 2024-01-04 00:43:57 · 2510 阅读 · 0 评论 -
【占用网络】OccNet: Scene as Occupancy 适用于检测、分割和规划任务 ICCV2023
本文分享“占用网络”方案中,具有代表性的方法:OccNet。它以多视角视觉为核心,首先生成BEV特征,然后通过级联结构和时间体素解码器重建生成3D占用特征。构建一个通用的“3D占用编码特征”,用以表示3D物理世界。这样的特征描述可以应用于广泛的自动驾驶任务,包括检测、分割和规划。原创 2023-12-29 00:44:48 · 2640 阅读 · 0 评论 -
【BEV感知】BEVFormer 融合多视角图形的空间特征和时序特征 ECCV 2022
本文分享BEV感知方案中,具有代表性的方法:BEVFormer。基本思想:使用可学习的查询Queries表示BEV特征查找图像中的空间特征和先前BEV地图中的时间特征。它基于Deformable Attention实现了一种融合多视角相机空间特征和时序特征的端到端框架,适用于多种自动驾驶感知任务。主要由3个关键模块组成:BEV Queries Q:用于查询得到BEV特征图Spatial Cross-Attention:用于融合多视角空间特征。原创 2023-12-17 23:12:08 · 5594 阅读 · 2 评论 -
【BEV感知 EA-LSS 方案】Edge-aware Lift-splat-shot
本文分享LSS方案的改进方案——EA-LSS,它解决了“深度跳变”问题,提出了一个新框架Edge-aware Lift-splat-shot。适用于“多视图转BEV”,可以代替原来的LSS模块,并有效地提高了检测精度,而推理时间的增加很少。在nuScenes测试集上验证,纯相机模型或多模态模型,EA-LSS都是有效的,并达到了Top1排名(截至本文时间2023-12)。原创 2023-12-11 22:18:04 · 752 阅读 · 0 评论 -
【BEV感知 LSS方案】Lift-Splat-Shoot 论文精读与代码实现
LSS全称是Lift-Splat-Shoot,它先从车辆周围的多个摄像头拍摄到的图像进行特征提取,在特征图中估计出每个点的深度然后把这些点“提升”到3D空间中。接着,这些3D信息被放置到一个网格上最后将这些信息“拍扁”到一个平面视图上,形成BEV特征图。Lift,是提升的意思,2D → 3D特征转换模块,将二维图像特征生成3D特征,涉及到深度估计。Splat,是展开的意思,3D → BEV特征编码模块,把3D特征“拍扁”得到BEV特征图。Shooting,是指在BEV特征图上进行相关任务操作。原创 2023-12-01 22:47:09 · 867 阅读 · 0 评论 -
【多传感器融合】BEVFusion: 激光雷达和视觉融合框架 NeurIPS 2022
BEVFusion其实有两篇,NeurIPS 2022 | 北大&阿里提出。另一篇是ICRA 2023 | MIT提出。本文先分享阿里那篇,下面简单总结一下两篇论文。重点: 介绍了一个融合摄像头和激光雷达数据的框架,用于3D对象检测。其创新之处在于使摄像头流程不依赖激光雷达输入,解决了现有方法过度依赖激光雷达数据的局限性。方法: BEVFusion框架使用两个独立流程来处理激光雷达和摄像头数据然后在鸟瞰视图(BEV)层面进行融合。这种方法即使在激光雷达功能失常,或摄像头失常的情况下也保证了稳健性。性能。原创 2023-12-01 01:37:23 · 8246 阅读 · 1 评论 -
多目标跟踪 | 评测指标
前言多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。目录一、基础的评测指标二、MOTA 和MOTP2.1 MOTA:多目标跟踪精度。2.2 MOTP:多目标跟踪准确度三、IDP、IDR、IDF3.1IDP:识别精确度3.2IDR:识别召回率3.3IDF1:平均数比...原创 2022-01-24 18:58:13 · 14740 阅读 · 1 评论 -
【占用网络】FlashOcc:基于2D卷积的占用预测模型
FlashOcc是一个它只需2D卷积就能实现“占用预测模型”,具有快速、节约内存、易部署的特点。它首先采用2D卷积提取图形信息,生成BEV特征。然后通过通道到高度变换,将BEV特征提升到3D空间特征。对于常规的占用预测模型,将3D卷积改为2D卷积,将三维体素特征改为BEV特征。而且不用Transformer注意力算子。原创 2024-01-17 09:18:17 · 822 阅读 · 0 评论 -
NVIDIA Jetson YOLOv5 tensorRT部署和加速 C++版
前言在实现NVIDIA Jetson AGX Xavier 部署YOLOv5的深度学习环境,然后能正常推理跑模型后;发现模型速度不够快,于是使用tensorRT部署,加速模型,本文介绍C++版本的。NVIDIA Jetson YOLOv5应用与部署_一颗小树x的博客-优快云博客版本介绍:yolov5 v6.0、tensorrtx;Jetpack 4.5 [L4T 32.5.0]、CUDA: 10.2.89。我测试了 kitti 数据集的100张图片:加速后每一张图像,平均推理时间是22ms原创 2022-05-12 18:42:10 · 7880 阅读 · 9 评论 -
NVIDIA Jetson YOLOv5应用与部署
前言在NVIDIA Jetson AGX Xavier 部署YOLOv5的深度学习环境,然后能正常推理跑模型。首先介绍在NVIDIA Jetson 安装类似于Conda的虚拟环境,然后创建一个环境用来跑yolov5的;然后在创建好的环境,跑起yolov5,总结要点。目录一、安装虚拟环境二、创建环境三、安装torch、torchvision3.1安装torch3.2安装torchvision3.3 测试torch、torchvision四、安装YOLOv5依赖库..原创 2022-05-10 21:35:04 · 5695 阅读 · 4 评论 -
未来之路:大模型技术在自动驾驶的应用与影响
本文深入探讨了大模型技术在自动驾驶领域的应用和影响。文中首先概述了大模型技术的发展历程,自动驾驶模型的迭代路径,以及大模型在自动驾驶行业中的作用。接着,详细介绍了大模型的基本定义、基础功能和关键技术,特别是Transformer注意力机制。文章还探讨了大模型在任务适配性、模型变革和应用前景方面的潜力。在自动驾驶技术的部分,详细回顾了从CNN到RNN、GAN,再到BEV和Transformer结合的技术迭代路径,以及占用网络模型的应用。最后,文章重点讨论了大模型如何在自动驾驶的感知、预测和决策。原创 2023-11-12 23:46:28 · 3420 阅读 · 1 评论 -
【论文解读】LaneNet 基于实体分割的端到端车道线检测
前言这是一种端到端的车道线检测方法,包含LanNet+H-Net两个网络模型。LanNet是一种多任务模型,它将 实例分割 任务拆解成“语义分割”和“对像素进行向量表示”,然后将两个分支的结果进行聚类,得到实例分割的结果。H-Net是个小网络,负责预测变换矩阵H,使用转换矩阵H对同属一条车道线的所有像素点进行重新建模。即:学习给定输入图像的透视变换参数,该透视变换能够对坡度道路上的车道线进行良好地拟合。整体的网络结构如下:论文地址:Towards End-to-E......原创 2021-07-27 22:10:06 · 6556 阅读 · 10 评论 -
【论文解读】MV3D-Net 用于自动驾驶的多视图3D目标检测网络
前言MV3D-Net融合了视觉图像和激光雷达点云信息;它只用了点云的俯视图和前视图,这样既能减少计算量,又保留了主要的特征信息。随后生成3D候选区域,把特征和候选区域融合后输出最终的目标检测框。论文地址:Multi-View 3D Object Detection Network for Autonomous Driving开源代码:https://github.com/bostondiditeam/MV3D一、框架了解先看下总体网络结构:(可以点击图片放大查看)输入的数原创 2021-07-22 18:21:36 · 4343 阅读 · 10 评论 -
【论文解读】F-PointNet 使用RGB图像和Depth点云深度 数据的3D目标检测
F-PointNet融合了视觉图像和激光雷达点云信息;它出现提出了直接处理点云数据的方案。在进行点云处理之前,先使用图像信息得到一些先验搜索范围,这样既能提高效率,又能增加准确率。论文地址:Frustum PointNets for 3D Object Detection from RGB-D Data开源代原创 2021-07-22 23:02:41 · 2968 阅读 · 4 评论 -
多目标跟踪算法 | DeepSort
前言论文名称:(ICIP2017)Single-Simple Online and Realtime Tracking with a Deep Association Metric论文地址:https://arxiv.org/abs/1703.07402开源地址:https://github.com/nwojke/deep_sort一、多目标跟踪的工作流程(常规)(1)给定视频的原始帧;(2)运行对象检测器以获得对象的边界框;(3)对于每个检测到的物体,计算出不同的特征.原创 2022-02-09 22:17:04 · 48642 阅读 · 0 评论 -
【论文解读】Sort、Deep-Sort多目标跟踪算法
前言基于视觉的目标跟踪在智能监控、动作与行为分析、自动驾驶等领域都有重要的应用。例如,在自动驾驶系统中,目标跟踪算法要对运动的车、行人、其他物体的运动进行跟踪,对它们的未来的位置、速度等信息作出预测。多目标跟踪,Multiple Object Tracking,并不是简单的多个单目标跟踪,因为它不仅涉及到各个目标的持续跟踪,还涉及到不同目标之间的身份识别、自遮挡和互遮挡的处理,以及跟踪和检测结果的数据关联等。Sort算法Sort算法,是一种简单的在线实时多目标跟踪算法。它以“每个检测”与原创 2021-08-27 18:39:11 · 3883 阅读 · 6 评论 -
损失函数解读 之 Focal Loss
前言Focal loss 是一个在目标检测领域常用的损失函数,它是何凯明大佬在RetinaNet网络中提出的,解决了目标检测中正负样本极不平衡和 难分类样本学习的问题。论文名称:Focal Loss for Dense Object Detection目录什么是正负样本极不平衡?two-stage 样本不平衡问题one-stage 样本不平衡问题交叉熵 损失函数Focal Loss代码实现Pytorch什么是正负样本极不平衡?目标检测算法为了定位目标会...原创 2022-01-24 20:45:00 · 23423 阅读 · 4 评论 -
旋转目标检测【1】如何设计深度学习模型
平常的目标检测是平行的矩形框,“方方正正”的;但对于一些特殊场景(遥感),需要倾斜的框,才能更好贴近物体,旋转目标检测来啦~常见的水平框参数表达方式为(x,y,w,h),四个参数分别表示水平框中心的横纵坐标、宽度以及高度。常用的YOLOv5也是用这边表示方式的。旋转框参数表示五参数表示法(𝑥,𝑦,ℎ,𝑤,𝜃),它在原来基础上添加多了一个角度𝜃,表示框的旋转情况。八参数表示法量(𝑥1,𝑦1,𝑥2,𝑦2,𝑥3,𝑦3,𝑥4,𝑦4),分别表示框的四个顶点。原创 2023-05-11 23:25:05 · 5079 阅读 · 9 评论 -
CVPR 2023 | 主干网络FasterNet 核心解读 代码分析
本文分享来自CVPR 2023的论文,提出了一种快速的主干网络,名为FasterNet。论文提出了一种新的卷积算子,partial convolution,部分卷积(PConv),通过减少冗余计算内存访问来更有效地提取空间特征。创新在于部分卷积(PConv),,降低了计算复杂度,从而实现了快速高效的神经网络。区别于常规卷积:PConv只对输入通道的一部分应用卷积,而保留其余部分不变。原创 2023-10-31 21:29:57 · 2615 阅读 · 0 评论 -
视频监控 智能交通 数据集(目标检测、跟踪)
前言总结一下视频监控的数据集,用于目标检测、跟踪。一、UA-DETRAC 数据集UA-DETRAC是一个具有挑战性的真实世界多目标检测和多目标跟踪基准。该数据集包括在中国北京和天津的24个不同地点使用Cannon EOS 550D相机拍摄的10小时视频。视频以每秒25帧(fps)的速度录制,分辨率为960×540像素。UA-DETRAC数据集中有超过14万个帧,手动注释了8250个车辆,总共有121万个标记的对象边界框。官方还对目标检测和多目标跟踪中的最新方法以及本网站中详述的评估指标进行基原创 2022-01-29 11:10:03 · 28099 阅读 · 0 评论 -
图像语义分割 公开数据集 智能驾驶方向
本文整理了10个质量较好,数据集较大,比较新的,图像语义分割的公开数据集;主要服务于智能驾驶方向(辅助驾驶、自动驾驶等)。目录一、发布方:IIIT Hyderabad发布时间:2017年(2020年推出,2.0更新版本)简介:这是一个新颖的大规模街道级图像数据集,通过使用多边形来描绘单个对象,以精细和细粒度的样式执行注释包含25,000个高分辨率图像,标注为66个对象类别,有37个类别的特定实例的标签采集地点:欧洲、北美和南美、亚洲、非洲和大洋洲的部分地区。原创 2022-10-23 16:57:41 · 1813 阅读 · 2 评论 -
生成模型&一文认识图像生成
更新一直持续到判别器无法区分为止(d)通过反复迭代训练生成器和判别器,GAN能够逐渐提升生成器生成的合成数据的质量和逼真度,使其接近真实数据的分布。单物体图像生成仅需要关注单个对象的生成细节,场景图像的生成往往需要考虑多个实例物体,物体间需要满足合理恰当且适应于用户需求的语义布局关系,因而场景图像生成任务复杂性较高,挑战性较强,且具有丰富的理论研究意义。这些模型通过大量的训练样本学习图像的特征和结构,并生成高质量的超分辨率图像。生成器试图生成逼真的输出图像,而判别器则试图区分生成的图像和真实的图像。原创 2023-07-05 00:58:10 · 3018 阅读 · 1 评论 -
模型转换 PyTorch转ONNX 入门
本文主要介绍如何将PyTorch模型转换为ONNX模型,为后面的模型部署做准备。转换后的xxx.onnx模型,进行加载和测试。最后介绍使用Netron,可视化ONNX模型,看一下网络结构;查看使用了那些算子,以便开发部署。目录前言一、PyTorch模型转ONNX模型1.1 转换为ONNX模型且加载权重1.2 转换为ONNX模型但不加载权重1.3 torch.onnx.export() 函数二、加载ONNX模型三、可视化ONNX模型。原创 2023-02-17 00:13:18 · 17602 阅读 · 9 评论 -
【经典论文解读】YOLOv4 目标检测
前言YOLO是一种目标检测方法,它的输入是整张图片,输出是n个物体的检测信息,可以识别出图中的物体的类别和位置。YOLOv4是在YOLOv3算法的基础上增加了很多实用的技巧,使得它的速度与精度都得到了极大的提升。YOLOv4版本设计思路如下:输入端:在模型训练阶段,使用了Mosaic数据增强、cmBN跨小批量标准化、SAT自对抗训练;BackBone层:也称主干网络,使用CSPDarknet53网络提取特征;同时使用Mish激活函数、Dropblock正则化;CSP 跨阶段部分连接。N.原创 2021-08-14 17:49:37 · 7567 阅读 · 10 评论 -
【论文阅读】BiSeNet V2用于实时语义分割的双边网络
BiSeNet V2延续了v1版本的双边结构,分别处理空间细节信息高层语义信息。同时设计更简洁高效的结构,进行特征提取,实现高精度和高速度。在训练模型时,使用了增强训练策略,添加多个辅助训练分支来促进不同浅层网络的特征提取能力。还设计了一个高效的特征融合模块,对空间细节信息、高级语义信息进行融合。这个模型代码开源,亲自测试过(PyTorch版本),精度和速度都挺不错的;也适合部署到开发板,进行落地应用。原创 2023-03-19 18:37:50 · 1329 阅读 · 1 评论 -
基于ICP算法计算点集之间的变换矩阵(旋转、平移)
前言本文主要是计算两个激光雷达之间的变换矩阵,即计算两组点云之间的变换矩阵。其中处理的点云数据主要是由x,y,z,intensity组成的,代表空间位置x,ry,z 和每个点云对应的反射强度intensity;这里计算点集之间的变换矩阵,用到每个点云的x,y,z信息,可表示为n*3的数组;两组激光雷达点云,可以表示为2和n*3的数组。首先使用ICP点云匹配算法,计算两组点云之n*3的数组间对应的点;然后基于SVD算法求出两个对应点集合的旋转矩阵R和转移矩阵t。一、基于ICP匹配对应点原创 2021-11-19 23:19:15 · 5497 阅读 · 0 评论 -
【论文解读】SCNN 用于交通场景理解的空间CNN
前言Spatial CNN,这里的Spatial不是指Spatial Convolution,而是通过特殊设计的CNN架构传递空间信息,更有效的学习空间关系,简称SCNN;它提出了一种新的神经网络结构用于提取特征。传统的网络结构是卷积层接收来自前一层的输入,应用卷积运算和激活函数,并将结果发送到下一层;该过程按顺序完成,一层一层传递下去。但SCNN是先对这部分输入特征进切片,再按照下、上、右、左四种顺序进行卷积。比如:一个三维的特征,相当于一个立方体,先进行横切片,分别进下、上顺序进行卷积。再原创 2021-08-25 23:46:22 · 3087 阅读 · 4 评论 -
【论文解读+实践】YOLOP 全景驾驶感知 同时处理三大视觉任务
前言YOLOP能同时处理目标检测、可行驶区域分割、车道线检测 三个视觉感知任务,并速度优异、保持较好精度进行工作,代码开源。它是华中科技大学——王兴刚团队,在全景驾驶感知方面提出的模型,致敬开源精神。论文地址:https://arxiv.org/abs/2108.11250开源代码:https://github.com/hustvl/YOLOP摘要全景驾驶感知系统是自动驾驶的重要组成部分。高精度、实时的感知系统可以辅助车辆在行驶中做出合理的决策。提出了一个全景驾驶感知网络(YO.原创 2021-09-20 01:09:34 · 2283 阅读 · 1 评论 -
CVPR2020 SMOKE 单目相机 3D目标检测【环境搭建篇】
前言SMOKE是一种用于自动驾驶的实时单目 3D 物体检测器。为什么会注意这边文章呢?是因为这两天发布的百度Apollo 7.0的摄像头障碍物感知,也是基于这个模型改进的;于是令我产生了一下兴趣。论文名称:SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation论文地址:https://arxiv.org/pdf/2002.10111.pdf开源地址:https://github.com/lzcccc.原创 2021-12-30 19:18:52 · 5457 阅读 · 10 评论 -
Cityscapes数据集(智能驾驶场景的语义分割)
前言面向智能驾驶(辅助驾驶、自动驾驶)场景下的语义分割任务,由于非结构化场景的复杂性,是一个非常具有挑战性的任务,所以有许多研究者和研究机构公开了很多相关的数据集推动语义分割领域的发展。本文主要介绍Cityscapes数据集。目录一、简介二、5000张精准标注三、20000 张粗略标注四、类别定义五、模型评估服务5.1像素级语义标注5.2实例级语义标注5.3全景语义标注5.43D车辆检测六、下载数据集一、简介Cityscapes 数据集上专...原创 2021-10-24 15:44:12 · 6001 阅读 · 1 评论 -
CamVid数据集(智能驾驶场景的语义分割)
前言CamVid 数据集是由剑桥大学公开发布的城市道路场景的数据集。CamVid全称:The Cambridge-driving Labeled Video Database,它是第一个具有目标类别语义标签的视频集合。数据集包 括 700 多张精准标注的图片用于强监督学习,可分为训练集、验证集、测试集。同时, 在 CamVid 数据集中通常使用 11 种常用的类别来进行分割精度的评估,分别为:道路 (Road)、交通标志(Symbol)、汽车(Car)、天空(Sky)、行人道(Sidewalk)、电原创 2021-10-24 16:48:38 · 3676 阅读 · 0 评论 -
语义分割(研究现状、技术基础)
前言语义分割的目标是输入图像的每个像素分配一个标签,即像素级别的物体分类任务,如下图所示,其中一张场景图像及该场景对应的语义分割标签图像,道路所属的所有像素区域都被标注为紫色,即道路类。基于这一特性,它可以广泛地应用于人脸分割、医学图像处理和自动驾驶领域的感知应用。一、国内外研究现状1.1 通用语义分割FCN:Fully Convolution Network(FCN)作为语义分割在深度学习领域的开山之作,它第一次将图像分类网絡的最后一层全连接层替换为一系列反卷积层,使得经过下采原创 2021-11-02 20:26:45 · 16817 阅读 · 1 评论 -
【经典论文解读】YOLOv3 目标检测
前言YOLO是一种目标检测方法,它的输入是整张图片,输出是n个物体的检测信息,可以识别出图中的物体的类别和位置。YOLOv3相对v2版本,准确度和速度差不多,但对小目标检测更好。v3版本主要的改进是使用Darknet-53主干网络提取特征、多尺度特征检测(FPN结构)、对象分类采用Logistic取代softmax。它延续了v2版本部分特点:采用先验框Anchor Boxes、聚类提取先验框尺度、约束预测边框的位置、批归一化BN、去除全连接层。v1版本没有采用先验框,每个网格只预测两个边界框原创 2021-08-08 19:00:01 · 1290 阅读 · 0 评论 -
PointNet、PointNet++ 基于深度学习的3D点云分类和分割
前言PointNet是直接对点云进行处理的,它对输入点云中的每一个点,学习其对应的空间编码,之后再利用所有点的特征得到一个全局的点云特征。Pointnet提取的全局特征能够很好地完成分类任务,但局部特征提取能力较差,这使得它很难对复杂场景进行分析。PointNet++核心是提出了多层次特征提取结构,有效提取局部特征提取,和全局特征。一、PointNetPointNet是直接对点云进行处理的,它对输入点云中的每一个点,学习其对应的空间编码,之后再利用所有点的特征得到一个全局的点云特征。原创 2021-09-10 17:41:06 · 1704 阅读 · 0 评论