计算机视觉
文章平均质量分 87
大道@至简
大道至简
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
bevfusion(mit) camera encoder部分代码详解(一)
BEV Fusion通过深度假设将2D图像特征提升到3D空间,实现图像到BEV网格的转换。核心步骤包括:1)使用LSS方法建立视锥空间(H,W,D);2)基于点云获取像素深度;3)通过相机内外参将特征映射到3D坐标;4)使用voxel pooling将特征投影到BEV网格(200×200)。该方法整合了多传感器数据,通过动态坐标转换和特征融合,实现了跨模态的特征统一表达。整个流程包含图像编码、视锥构建、几何坐标转换和BEV特征池化等关键模块。原创 2025-07-01 17:29:56 · 984 阅读 · 2 评论 -
Multiscale deformable attention
deformable attention 灵感来源可变形卷积,先来看看什么是可变形卷积DCN?DCN 论文地址大概就像图中所示,传统的CNN 卷积核是固定的,假设为N = 3 x3,所以邻域9个采样点位置就是固定的。可变形卷积目的就是动态生成这9个采样位置。首先特征图经过卷积层,这个和传统CNN没区别,然后生成与特征图一样大小的位置偏移网络,channel = N * 2,表示在原有9个固定采样点上的x, y 偏移。得到偏移量后再回到原始特征图上进行插值采样,进行采样点卷积,得到当前特征点的输出值原创 2025-03-13 13:56:48 · 2307 阅读 · 0 评论 -
CUDA各种内存和使用方法
例如:blockSize = 128,一个SM有2048个线程,那么一个SM能同时处理16个block。如果SM有96K的共享内存,每个block则分配96 / 16 = 6K,太大其他block无法获得使用。每个SM的共享内存数量是一定的,也就是说,如果在单个线程块中分配过度的共享内存,将会限制活跃线程束的数量;合适分配单个线程块的共享内存,使得SM的使用率最大化,起到加速的作用。特点:存储只读数据,访问速度快,广播式访问。使用:存储线程块中的共享数据,加速线程间的数据处理。使用:频繁访问的常量数据,原创 2024-12-26 22:18:43 · 1418 阅读 · 0 评论 -
相机坐标系的正向投影和反向投影
由于像素坐标(u, v)是畸变后的点经过内参映射得到。图像像素坐标(u,v)到世界3D坐标系(x, y, z = 0) 的映射过程。从相机坐标系的一个平面到世界坐标系的另一个平面的映射通过单应矩阵H可以得到。世界3D坐标系(x, y, z) 到图像像素坐标(u,v)的映射过程。为世界坐标系原点到相机坐标系原点的平移矩阵,为3 x 1 矩阵。射线到平面上的投影都是等效的,因此进行归一化,方便计算。假设相机坐标在世界坐标系下为(xc, yc, zc),属于世界坐标系到相机坐标系的旋转矩阵, 旋转矩阵为。原创 2023-02-08 23:56:25 · 3641 阅读 · 0 评论 -
simOTA 彻底理解
simOTA 出现在YOLOX中,是作为正样本匹配,能达到自动分析一个Gt 需要匹配哪些正样本。要解决的问题就是去做预测的优化问题。步骤大致是先进行正样本的预筛选,然后通过计算预选框与gt 框的代价矩阵,原创 2022-10-13 23:14:49 · 3580 阅读 · 0 评论 -
yolov5简要介绍
正样本匹配:寻找负责预测真值框的先验框 (不负责的作为负样本或丢弃)正样本寻找过程:与以往的用IOU匹配不同,yolov5用如下2步骤进行正样本匹配:1、先验框尺寸匹配:目标框与先验框的宽比值、高比值的最大值 小于一定阈值,则为正匹配。原创 2022-10-08 18:16:55 · 8129 阅读 · 3 评论 -
目标框检测中准确率、召回率、AP、mAP计算原理及代码
假设有M个真值正样本,我们从Top-1 到 Top-N,每累积一个预测就会对应一个recall 和 一个 precision。,M/M),对每一个recall,从对应的precision 中取最大值作为当前recall 对应的precision,求M 个precision的平均得到AP。一般用 IOU 进行匹配,预测框和真实框之间的 IOU 值大于一定阈值时,比如0.5,则认为对真实样本正确预测。但是Accuracy 不经常使用,因为我们在做目标预测的时候往往只关心正样本,而不去关心负样本是否正确预测。原创 2022-09-28 00:09:28 · 9947 阅读 · 5 评论 -
针孔相机畸变成像详解
相机成像经历三个过程:1、世界坐标系到相机坐标系。外参变换,涉及外参参数:(1)、世界坐标系到相机坐标系的旋转矩阵 R(2)、世界坐标系到相机坐标系的平移矩阵 T2、相机归一化坐标系(z=1)平面内坐标投影畸变畸变矫正, 涉及内参畸变参数:径向畸变系数:k1, k2, k3切向畸变系数:p1, p23、相机归一化坐标系(z=1)平面投影到像平面相平面投影,涉及内参畸变参数:投影焦距:fx, fy相位平移:cx, cy下面详细讲解每一个过程:世界坐标系到相机坐标系是刚体变换,不会产生形变,原创 2022-06-30 18:24:01 · 2249 阅读 · 0 评论 -
鱼眼相机投影模型
等距投影R、T 变换将空间中一点转换到鱼眼坐标下。归一化到鱼眼Zc = 1 平面上。得到归一化(x, y)根据映射点(x, y)求 theta , theta 为入射光线与 Zc 轴夹角。加入畸变系数,求畸变thetad。rc = f * thetard = f * thetad根据等比例关系,xc / xd = rc / rd即可重新求得畸变后的相机坐标系下的(xd, yd)焦距 + 偏置求得 相面坐标 (u,v).........原创 2022-06-05 17:50:19 · 2499 阅读 · 2 评论
分享