
计算机视觉
文章平均质量分 91
大三下课程学习
-小透明-
记录自己的一些学习笔记。
展开
-
swin-transformer
通过将图像或文本分割成Token,可以更好地理解和处理图像或文本数据,从而提高计算机视觉任务的性能和效果。swin transformer用CNN的方式去构建网络,用卷积局部化的思想,基于self-attention的方式去搭建网络,实现图像编码。其主要原因在于:transformer的模型结构就导致学习数据非常的难,因此需要更多的hidden layer来学习数据的本质分布。例如,在图像分类或目标检测任务中,可以将图像划分为不同的图像块,并将每个图像块视为一个Token来进行处理。原创 2023-07-14 10:16:13 · 6115 阅读 · 0 评论 -
self-attention(transformer)
在传统的CNN中,都是对感受野内部的事情进行关联后理解。感受野实际上关乎了模型对全局信息的理解。而本质上,感受野是一种特殊的注意力机制,也就是说感受野是一种受限的、具有特定参数的注意力。之前的内容如DANet,则更加接近广义的注意力机制。在这种机制的作用下,,通过注意力权重矩阵,对图像中全局的信息进行提取和理解。而《attention is all your need》这篇文章中,提出了一种全新的注意力机制,其意义在于:1. 从原理上解释了CNN和RNN的一般形式。原创 2023-06-21 09:02:45 · 1214 阅读 · 0 评论 -
图像生成--对抗生成模型
判别模型的典型代表即为图像分类任务,即给定一个数据,判定他是哪一类。而生成模型的区别在于,给定一个数据,将其生成为预期数据。在数学上,生成模型与判别模型的区别在于:给定观测值x:判别模型旨在判别得到y的概率生成模型旨在根据指定的y得到x的概率。原创 2023-06-15 19:37:32 · 1186 阅读 · 0 评论 -
MaskRCNN与注意力机制
早期人们对注意力的认知,主要是上下文的关联,或者说是全局性的关联。往往,一张图像中像素的语义,不仅仅和周围像素相关,也可能和较远的像素相关。然而,受限于卷积的特性,无法从全局层面去观察图像,从而使得像素之间的上下文关联较为薄弱。从另一个角度讲,注意力机制的存在一个重要作用,是为了更好的扩大感受野。因此,空洞卷积,从某种程度上来说,可以认为是注意力机制的萌芽。同时需要注意的是,注意力机制不仅仅是扩大感受野。同时,包括:过滤不相干信息建模长距离依赖性。原创 2023-06-08 17:38:26 · 3175 阅读 · 0 评论 -
深度学习的分割方法
UNet。原创 2023-06-05 16:32:36 · 1930 阅读 · 0 评论 -
综述:图像分割
在传统方法时代,主要是基于初等图像特征对图像的像素进行划分,本质上,是对一簇像素进行合并的过程。图像分割(segmentation、cut)指的是将数字图像划分成多个图像子区域的过程。区域法:以像素为起点,不断合并周围像素成为更大的区域。阈值法:根据不同的像素值等级,划分出不同的方法。轮廓法:设定一个初始轮廓,定义函数值对其进行优化逼近物体的真实轮廓。在广义的图像分割中,传统方法和深度方法对于分割有不同的定义。实际上,在深度方法中,对于语义分割又有更加细分的问题定义。实例分割:将不同的物体分类分割。原创 2023-06-01 17:01:44 · 972 阅读 · 0 评论 -
Anchor Free目标检测方法
从hourglass net输出后,特征经过不同3*3卷积后,得到两路输出,分别送到top-left和bottom-right中。考虑到上述问题,则可以设计一个不同方向的池化层,目的在于保留预期区域的特征,删除非预期区域的特征。anchor based 方法: 计算iou,IOU重合超过0.7的框即为正例,否则为负例。也就是说预测人体的N个关键点,并对其进行合并识别,可以得到人体上的多个位置,从而得到姿态。anchor的简单理解:在特征图上的模板,含有的信息为检测框的。原创 2023-05-29 15:51:25 · 2202 阅读 · 0 评论 -
one-stage目标检测方法
Yolov1是一种基于深度学习的目标检测算法,其主要特点是快速和高效。以下是关于Yolov1的一些精髓:Yolov1使用单个神经网络来同时进行目标检测和分类,而不是像其他算法那样需要多个网络。Yolov1使用全卷积神经网络,可以对不同大小的输入图像进行处理。Yolov1将输入图像划分为S x S个网格,并为每个网格预测B个边界框和每个边界框的置信度和类别概率。Yolov1使用非极大值抑制(NMS)来消除重叠的边界框。Yolov1的训练数据集使用了数据增强技术,包括随机裁剪、旋转、缩放等。原创 2023-05-29 15:18:45 · 1101 阅读 · 0 评论 -
two-stage目标检测算法
RCNN是真正使用深度学习进行目标检测的开山之作,为后续的faster rcnn系列提供了巨人的肩膀。总体示意图如下图所示- rcnn打破了传统思路滑动窗口的模式,提供了更加快速的检测- 大幅提升了传统方法的性能,在voc2007上从35\%提升到了53\%- 速度依然很慢。gpu上的速度大概每张图像13秒。原创 2023-05-22 22:00:00 · 852 阅读 · 0 评论 -
目标检测概述
深度学习方法开启了目标检测的新世界。早期的检测方法虽然用深度学习进行目标检测,但是仍然拘泥于滑动窗口方式,用深度学习作为特征提取器和目标分类器使用流派一:两阶段目标检测。首先从图像中初步筛选出可能存在目标的区域(不用确定目标是什么),然后再使用分类器对目标进行进一步的分类;流派二:一阶段目标检测。不用出不筛选,直接对图像中的物体进行定位和分类。比二阶段更快,但没有二阶段准确。以上两类模型都被称为Anchor-based方法。Anchor是一组被筛选出来的目标框。原创 2023-05-15 19:17:25 · 578 阅读 · 0 评论 -
表情识别 emotion recognition
动作单元(action unit)是定义表情的重要工具。心理学家和生物学家认为,人的表情可以分解为不同面部肌肉的状态组合。人脸动作编码系统,是定义AU的最重要系统之一,其中定义了几十个表情动作单元,且每个单元都存在一定的强度级别,从而可以通过组合得到上千种人类表情。描述1皱眉毛2眼头上扬4眼角上扬5上眼睑上升6下眼睑上升7眼睛紧闭9鼻翼扩张10上唇上扬12嘴角上扬14嘴巴张开愤怒:AU4 + AU5 + AU7 + AU23高兴:AU6 + AU12。原创 2023-05-11 20:03:56 · 1681 阅读 · 0 评论 -
人脸识别中的深度学习
在google提出的FaceNet中,人脸识别的准确率在LFW上,达到了98.87/%, 如果使用了额外的对齐手段,准确率还能继续提升一个点。其中,SVR是一种回归算法,通过LBP特征的输入,来训练一个SVR模型,用于估计人脸检测结果。对此,传统方法的解决方案多为对图像进行预处理,包括去噪、白平衡、人脸对齐等等,但由于特征的表达能力较弱,因此性能较为受限。而且,即便我们为每个人都采集了大量的训练图像,也很难训练一个大规模的分类模型--因为类别太多了,特征空间太拥挤。因此,获得了较好的结果[3]。原创 2023-05-08 15:43:44 · 2685 阅读 · 0 评论 -
人脸识别--传统+深度方法
在前深度学习时代,非深度的方法探索了不同的人脸识别算法。先考虑一下非深度学习时代,人脸识别难在哪?或者说目标识别的难点在哪?图像是一个高度冗余的数据。* 图像数据中包含大量与语义无关的内容* 图像数据中还包含大量噪声所有的图像识别算法,都是在解决这个问题。也就是说,如何从冗余的数据中,提取出关键的信息。深度学习通过不断的卷积,越来越多的通道数量,以及大量的参数解决这个问题。非深度方法如何处理?原创 2023-05-04 16:36:04 · 886 阅读 · 0 评论 -
人脸检测--传统方法
那么在待检测区域中发现了类似的模式,则可以认为是一个人脸。那么如何总结出人脸模式呢?机器学习。原创 2023-04-29 21:23:30 · 2324 阅读 · 0 评论 -
SVM-老师讲的真的很好!
SVM的思路在于,我将数据映射到更高维度的空间后,从更高的维度寻找一个求解平面,从而得到一个更好的结果。例如,一个噪声点作为边界后,为了正确分类,会极大地减少分类平面与边界点的距离。因此,这个分类平面是由这些边界上的点支撑起来的,所以叫支持向量机。或者是需要一个极其复杂的模型,来将点分割,从而造成过拟合。svm本质上只关心边界上的点,对于非最近的点根本不关心。上述过程中,是在将全部点正确分类后,得到最优的平面方程。SVM解决分类模型的基本思路:什么是一个好的分类边界?那么我们的公式就可以写为。原创 2023-04-20 18:26:20 · 388 阅读 · 0 评论 -
图像特征提取
Scale-Invariant Feature Transform尺度不变形特征变换,旨在于从图像中提取若干个特征点。这些点的特征具有尺度不变性和旋转不变性,因而可以用于匹配不同尺度和旋转方向的图像内容。物体以图像方式呈现时,往往会呈现较大的尺度变化在机器视觉中,如何对尺度变化不敏感,是决定一个特征好坏的关键问题。深度学习时代,通过多层卷积和池化处理,可以得到尺度不变形较高的深度特征;而在前深度学习时代,如何能够提高特征的尺度不变性?演示站点:http://weitz.de/sift/index.html?原创 2023-03-30 23:05:35 · 1247 阅读 · 0 评论 -
图像线面检测--霍夫变换
hough transform,是一种用于检测形状的图像处理技术。如何令机器自动的去检测图像中的直线、或圆,是霍夫变换的基本功能广义上,任何的边缘、闭合区域,都可以认为是直线和圆的组合。因此,广义的霍夫变换可以实现检测图像边缘的功能。原创 2023-03-30 22:16:16 · 249 阅读 · 0 评论 -
图像角点检测
角点是指图像中某个点附近存在两个或多个方向的边缘。这个点周围的像素可以在至少两个不同的方向上被视为边缘,这种情况被称为角点。角点通常是物体的特征点,可以用于物体跟踪、三维重建等应用。原创 2023-04-05 11:30:00 · 407 阅读 · 0 评论 -
边缘检测和轮廓检测
图像中像素值发生剧烈变化的位置(高频信息区域)* 这些区域往往都是图像的边缘方法:滤波、形态学处理等。原创 2023-03-27 17:51:00 · 877 阅读 · 0 评论 -
图像基本变换
例如,图像缩放了fx和fy倍,那么新图像中的像素坐标$x', y'$对应原图坐标为$f_xx, f_yy$cv2.warpAffine(img, 旋转矩阵, (运算后矩阵的大小也就是输出图片的尺寸) )getPerspectiveTransform([左上],[左下],[右上],[右下]四个坐标)在resize函数的参数中,第一个参数为待缩放图片,第二个参数为缩放后的尺寸。* 最近邻插值: 源图像中距离新像素位置最近的像素赋值给新像素。其中,a为核半径,在目标像素的a范围内,通过公式计算新的像素值。原创 2023-03-21 12:41:00 · 460 阅读 · 0 评论 -
直方图及其应用
直方图是一种描述数据的分布通过将连续变量划分成一系列区间,统计区间频率,并用来表示,以表征其统计特征在图像处理中,直方图可以用来表示图像中像素值的分布状况,描述不同灰度级的像素在图像中的占比。原创 2023-03-21 18:29:27 · 2722 阅读 · 0 评论 -
图像滤波与形态学操作
基于形状和结构的理论和方法,目的是改变和处理图像中对象的形状和结构,实现图像的进一步处理形态学操作的对象是二值图像,在进行形态学操作之前,需要确认是否已经将图像转换为二值图像。原创 2023-03-21 19:26:02 · 763 阅读 · 0 评论 -
图像处理基础
图像是由一个个像素点组成,像素点就是颜色点,而颜色最简单的方式就是用RGB或RGBA表示。原创 2023-03-08 17:44:25 · 743 阅读 · 0 评论