
计算机视觉
文章平均质量分 60
_DCG_
这个作者很懒,什么都没留下…
展开
-
特征金字塔网络(FPN)详解
特征金字塔网络是是一种多尺度特征表示方法,用于解决目标检测、图像分割等任务中对不同尺寸的目标的检测问题。特征金字塔网络会有多个尺度的特征图输出,每个大尺度的特征图都包含小尺度特征图的信息,进而将小尺度特征图中的信息融合到大尺度的特征图中,这样在大尺度中也会包含只有小尺度特征图的语义信息。特征金字塔网络会有多个输出,每个输出的尺度各不相同,但是通道数相同自顶向下是只从小尺度特征图向大尺度特征图方向传递信息自底向上路径,它的意思是从大尺度特征图向小尺度方向的变化通过横向连接特征融合实现了细节和语义的融合。原创 2025-04-03 18:02:58 · 762 阅读 · 0 评论 -
空间信息、通道数、大/小尺度、语义理解详解
空间信息指特征图中像素的位置关系和局部结构信息,包括物体的形状、纹理、边缘等空间特征。空间信息可以理解图像中物体的形状、纹理、边缘、相对位置等空间特征。- 尺寸↓ → 通道数↑- 空间精确度↓ → 语义信息↑尺度越小,一般情况下通道数会越多,尤其是在计算机视觉处理中空间信息细节越少,则会换来语义信息的不断增加如果需要对物体进行精确的定位?保留更多的空间信息如果需要语义理解?增加通道数和深度如果需要多尺度检测?使用特征金字塔。原创 2025-04-03 11:10:03 · 486 阅读 · 0 评论 -
numpy常用函数详解
在深度神经网络代码中经常用到numpy库的一些函数,很多看过之后很容易忘记,本文对经常使用的函数进行归纳总结。原创 2025-03-09 22:38:21 · 710 阅读 · 0 评论 -
理解CPU与GPU频繁数据传输
在学习深度学习神经网络过程中,有时候会遇到一些描述“尽量避免CPU与GPU频繁数据传输”。那这句话应该如何理解呢?我们知道CPU可以访问内存,而GPU也有自己的显存。要完成功能一般都是CPU从硬盘或者其他数据源读取数据到内存中,然后将内存中的传输到GPU的显存中,GPU从显存中获取数据并进行计算,并最终将计算的结果返回给CPU的内存中。原创 2025-02-26 17:40:33 · 582 阅读 · 0 评论 -
深度学习批次数据处理的理解
GPU非常适合于矩阵运算、卷积运算、元素级操作(比如每个元素乘2)。现在的GPU有的显存能够达到80GB甚至更高。原创 2025-02-26 16:45:43 · 1381 阅读 · 0 评论 -
感受野详解
感受野是指在CNN(卷积神经网络)中,输出特征的一个像素点对应输入图像上的区域大小。换句话说它表示输出特征能“看到”输入图像的范围。还有另外一种说法就是感受野指的是网络中某特特定层的输出特征图上的一个点对应的输入图像的区域。感受野是在输入图像上影响输出特征图中的某个点的所有像素集合。简单来说,感受野是决定该输出点的“视野”。原创 2025-01-22 14:16:12 · 561 阅读 · 0 评论 -
感受野详解
感受野是指在CNN(卷积神经网络)中,输出特征的一个像素点对应输入图像上的区域大小。换句话说它表示输出特征能“看到”输入图像的范围。还有另外一种说法就是感受野指的是网络中某特特定层的输出特征图上的一个点对应的输入图像的区域。感受野是在输入图像上影响输出特征图中的某个点的所有像素集合。简单来说,感受野是决定该输出点的“视野”。原创 2025-01-22 14:12:29 · 1210 阅读 · 0 评论 -
dlib中rectangle与opencv的rect的区别
和 OpenCV 中的。原创 2024-03-31 13:59:17 · 651 阅读 · 0 评论 -
计算机视觉常用术语汇总
以人脸识别为例,表示的是输入图像时输入的是一张图像还是多张图像,如果输入的是一张图像,那么batch_size就为1;:也是用于表示两组向量相似度的比较,但是计算方法与欧式距离不一样,取值范围为-1~1,数值为0表示两个向量不相关,数值越接近-1表示两个向量越不相似;:这个术语的含义是将图像中的人脸经过旋转转到下巴垂直的地面的角度,这是通过图图像的矩阵操作实现的,例如一个人脸是歪着头的,经过这一步操作后,人脸部分会被旋转到垂直地面的方向。:检测是否为真人,或者是通过其他方式实现的家人,照片,面具等。原创 2024-03-27 22:00:19 · 431 阅读 · 0 评论 -
利用dlib实现人脸识别初体验
前面的文章中介绍了如何编译dlib静态库和动态库,那么下一步就是利用dlib完成一个最简单的识别图片中人脸的程序。下面将测试的环境、代码、遇到的问题、解决方法一一列出,供大家参考,希望能给大家一些帮助。解决方法:LIBS += -L/usr/lib/x86_64-linux-gnu -llapack -lcblas。解决方法:在pro文件中添加 LIBS += -L/usr/local/lib -ldlib。原创 2024-03-16 16:06:57 · 1083 阅读 · 0 评论 -
linux下dlib静态库和动态库编译
本文讲述的linux系统下如何编译dlib的静态库和动态库方法。原创 2024-03-14 21:29:57 · 791 阅读 · 0 评论 -
opencv之利用gpu进行编程
opencv下存在gpu可以使用的函数接口,一般以cv::cuda:xxxx cv::cudacodec::等开头。cuda是nvidia公司提供的并行计算框架,也就是说opencv提供的cuda接口仅支持nvidia公司的显卡(个人理解)。至于其它gpu如何使用本篇不涉及。那我们有了nivida显卡,安装好了opencv库,是否就可以直接利用opencv提供的gpu函数进行操作了呢?原创 2023-09-26 09:44:20 · 2749 阅读 · 2 评论 -
opencv 图像通道的数据类型
最近突然遇到一个问题,调用mat的at函数设置通道数据的突然卡住了,如果一个mat对象是3通道数据,那么他的数据是什么呢?下面就以表格的形式将通道数据类型表示出来。通过表格的示意就能猜出通道数据的类型。原创 2023-04-24 20:34:59 · 127 阅读 · 0 评论 -
opencv 绘制任意多边形方法
opencv提供了很多接口来在图像上绘制基本形状,例如圆形,方形,椭圆,设置文字(默认只支持文字)等,但是如何绘制多边形呢?上面两种方法都可以实现多边形的绘制,但是他们的区别在哪里呢?原创 2023-04-24 19:45:00 · 564 阅读 · 0 评论 -
Opencv 如何获取roi区域
然后通过图像的基本绘制方法(circle/rectangle/ellipse/polylines/fillpoly/drawContours)绘制基本图形,并将绘制的图形进行填充(注意一定要填充为非0值,这与掩膜的原理有关系,只有mask掩膜的值非0的区域才会进行操作,以setto为例,第二个参数就是mask,mask中非0的位置才会将第一个参数的值付给对应位置的像素)。上述两种获取roi的方式是通过重载()运算符实现的,根据上面的描述可以看到通过上面两种方法仅可以实现矩形roi区域的获取。原创 2023-04-23 21:21:44 · 1480 阅读 · 0 评论 -
opencv 图像错切的理解
opencv 图像错切的概念原创 2023-04-10 20:53:27 · 703 阅读 · 0 评论 -
IMAGE WATCH插件安装失败解决方法
image watch安装问题解决原创 2023-03-30 19:13:28 · 1239 阅读 · 0 评论 -
c++ opencv+vs studio2017读取摄像头
opencv读取摄像头图像时问题解决。原创 2023-03-21 21:07:33 · 614 阅读 · 0 评论 -
opencv运行问题汇总
opencv运行过程中问题汇总原创 2023-03-17 20:28:41 · 212 阅读 · 0 评论 -
opencv源码安装问题记录
opencv源码编译问题记录原创 2023-03-16 22:44:48 · 225 阅读 · 0 评论