
CV学习
文章平均质量分 91
Moresweet猫甜
硕士在读,优快云人工智能领域新星创作者,百度飞桨领航团团长,湖北省制造企业智能管理工程技术研究中心智能硬件组负责人,红帽国际认证工程师、系统管理员,山东省省级优秀毕业生,中国计算机学会(ccf)学生会员,兴趣方向为机器人方向,科研方向为路径规划方向,希望能够通过积累厚积薄发,利用好自己拥有的资源比争取好资源更加重要。
展开
-
【自注意力机制必学】BERT类预训练语言模型(含Python实例)
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练模型,它是自然语言处理(NLP)领域的重大里程碑,被认为是当前的State-of-the-Art模型之一。BERT的设计理念和结构基于Transformer模型,通过无监督学习方式进行训练,并且能够适配各种NLP任务。预训练模型是指在大规模文本数据上进行大量无监督训练,学习得到丰富的语言表示。原创 2023-06-22 20:44:47 · 14112 阅读 · 53 评论 -
CV学习笔记-浅述CV方向
什么是人工智能1. 人工智能初探人工智能是通过机器来模拟人类认知能力的技术人工智能最核心的能力就是根据给定的输入做出判断或预测关键时间节点:1956年,达特茅斯会议,人工智能元年 1982年 提出机器学习 2006年 提出深度学习 *图灵测试(测试员分辨不出是机器还是真人)50年提出2. 人工智能的三大要素数据算原创 2021-11-04 13:34:09 · 11168 阅读 · 0 评论 -
CV学习笔记-数字图像概述
数字图像1. 图像像素: 像素是分辨率的单位。像素是构成位图图像的基本单元,每个像素都有自己的颜色。分辨率: 又称“解析度”,图像的分辨率就是单位英寸内的像素点数。单位是PPI(Pixels Per Inch)PPI表示的是每英寸对角线上所拥有的像素数目(w:宽度像素数,h:高度像素数,di:屏幕尺寸),屏幕尺寸指的是对角线长度在生活中经常混淆分辨率与清晰度的关系以及分辨率与屏幕尺寸的关系。灰度: 表示图像像素明暗程度的数值,也就是黑白图像中点的颜色深度。范围一般为0-255.白色为2原创 2021-11-08 22:14:00 · 2963 阅读 · 0 评论 -
CV学习笔记-特征选择
特征选择1. 特征概述类比显示生活中特征的意义,一只羊的毛稀疏、眼睛大、有角…,我们可以用羊的特征去表示它,(毛=稀疏,眼睛=大,角=有,…),这样的就属于特征,可以表征一类事物的特点,进而我们可以通过特征来猜测事物之间的不同以及所属类。2.特征选择的目的在现实生活中,一个对象往往具有很多属性(特征),特征可以分为以下三类:相关特征: 对于学习任务有帮助,可以提升学习算法的效果;无关特征: 对于我们的算法没有任何帮助,不会给算法的效果带来任何提升;冗余特征: 不会对算法带来新的信息,或者说这原创 2021-11-09 13:56:00 · 1541 阅读 · 0 评论 -
CV学习笔记-特征提取
特征提取1. 概述图像中常见的特征有边缘、角、区域等。通过各属性间的关系,改变原有的特征空间,例如组合不同的属性得到新的属性,这样的处理叫做特征提取。注意特征选择是从原始的特征数据集中选择出子集,是一种包含关系,并没有造成原始特征空间的变动,而特征提取不同,这是一个重要的区别点。2. 主要方法特征提取的主要方法: 主成分分析(PCA)特征提取的主要目的: 降维,排除信息量小的特征进而减少计算量等。3. PCA1. PCA算法的实现根据向量的空间变换理论,我们可以把一个三维向量(x1,原创 2021-11-12 17:37:10 · 3224 阅读 · 3 评论 -
CV学习笔记-边缘提取
边缘提取1.概述1.边缘定义: 图像的边缘是指图像局部区域亮度变化显著的部分,该区域的灰度剖面一般可以看作是一个阶跃,即从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值。特点: 边缘有正负之分,由暗到亮为正,由亮到暗为负。求边缘幅度的算法: sobel、Roberts、prewitt、Laplacian、Canny算子 (Canny算子的效果优于其他,但较为复杂)2. 边缘提取的定义边缘检测主要是图像的灰度变化的度量、检测和定位3. 边缘提取的应用例如语义分割、实例原创 2021-11-13 15:29:40 · 5618 阅读 · 0 评论 -
CV学习笔记-相机模型(欧式变换及仿射变换)
相机模型1.相机模型原理1. 相机成像相机成像是一个小孔成像模型,将现实生活中的三维空间物体映射到二维的成像平面上,进而生成二维的图像。相机模型中的坐标系:世界坐标系Pw(Xw, Yw, Zw): 对应真实客观三维世界的坐标系,也称为客观坐标系,表征物体在真实世界中的位置坐标。世界坐标系是随着物体的大小和位置变化的,单位一般是长度单位。摄像机坐标系PO(x, y, z): 对应以相机的光心为原点的坐标系,其以平行于图像的x和y方向为x轴y轴,z轴与光轴平行,单位也为长度单位。图像物理坐原创 2021-11-16 13:56:24 · 5649 阅读 · 0 评论 -
CV学习笔记-立体视觉(点云模型、Spin image、三维重建)
立体视觉1. 立体视觉概述概述: 立体视觉是一种计算机视觉技术,其目的是从两幅或两幅以上的图像中推理出图像中的每个像素点的深度信息。原理: 在二维图像中,只有宽高两个维度的信息,而如何辨识远近的深度信息,则是仿生模拟了人眼的“视差”的原理,由于我们的左眼和右眼观察真实的物体时,成像是不同的,大脑利用了左右眼之间的图像差异,辨识了物体的远近。2. 立体视觉的实现传统单目系统: 生成真实世界的映像,缺乏深度信息。双目系统: 借鉴人眼的“视差”原理,能够获得深度信息。极平面:O1 ,O2,P三原创 2021-11-20 15:09:53 · 8192 阅读 · 0 评论 -
CV学习笔记-聚类
图像聚类1. 概述1. 分类与聚类分类: 分类解决的问题是从特定的数据集中挖掘模式,并作出判断的过程。分类学习的主要过程:(1) 给定训练数据集,数据集中存在一个类似标记作用的标记号,依据标记号来判断这个数据集是对于需要起积极作用的数据集(正向数据集)还是对需要起抑制作用的数据集(负向数据集),例如需要是分类水果是否是葡萄,那么都是葡萄的数据集就是正向数据集,非葡萄的数据集就是负向数据集。(2)构建训练的模型,并使用数据集进行学习训练。(3)通过训练的模型对预测数据集进行预测,并计算其结果的原创 2021-11-24 12:46:11 · 1034 阅读 · 0 评论 -
CV学习笔记-图像滤波器
图像滤波器1. 图像滤波1. 图像滤波&滤波器图像滤波: 即在尽可能保留图像细节特征的条件下对目标图像的噪声进行抑制,是图像预处理中不可不可缺少的操作,其处理效果的好坏将直接影响到后续图像处理和分析的有效性和可靠性。滤波器: 可以把滤波器想象成一个包含加权系数的透镜,当使用这个滤波器平滑处理图像时,就是把这块透镜放到图像之上,透过透镜来看我们得到的图像。2. 图像滤波的目的&要求滤波目的:消除图像中混入的噪声。为图像识别抽取出图像特征。滤波要求:不能损坏图像轮廓及边原创 2021-12-06 14:51:36 · 3849 阅读 · 0 评论 -
CV学习笔记-尺度不变特征变换(SIFT)
SIFT(尺度不变特征变换)1. 概述Sift(尺度不变特征变换),全称是Scale Invariant Feature TransformSift提取图像的局部特征,在尺度空间寻找极值点,并提取出其位置、尺度、方向信息。Sfit的应用范围包括物体辨别、机器人地图感知与导航、影像拼接、3D模型建立、手势识别、影像追踪等。Sfit算法的实质是在不同的尺度空间上查找关键点(特征点),计算关键点的大小、方向、尺度信息,利用这些信息组成关键点对特征点进行描述的问题。Sift所查找的关键点都是一些十分原创 2021-12-08 14:48:25 · 4913 阅读 · 0 评论 -
CV学习笔记-深度学习
深度学习1. 神经网络1. 概述引例:生物神经网络作用机理生物神经网络的基本工作原理:一个神经元的输入端有多个树突,主要是用来接收输入信息的。输入信息经过突触处理,将输入的信息累加,当处理后的输入信息大于某一个特定的阈值,就会把信息通过轴突传输出去,这时称神经元被激活。相反,当处理后的输入信息小于阈值时,神经元就处于抑制状态,它不会像其他神经元传递信息。或者传递很小的信息。人工神经网络:人工神经网络分为两个阶段:接收来自其他n个神经元传递过来的信号,这些输入信号通过与相应的权重进行原创 2021-12-12 14:29:32 · 2152 阅读 · 1 评论 -
CV学习笔记-推理和训练
推理和训练1. 概述训练(Training): 一个初始神经网络通过不断的优化自身参数,来让自己变得准确。这整个过程就称之为训练(Training)推理(Inference): 你训练好了一个模型,在训练数据集中表现良好,但是我们的期望是它可以对以前没看过的图片进行识别。你重新拍一张图片扔进网络让网络做判断,这种图片就叫做现场数据(livedata),如果现场数据的区分准确率非常高,那么证明你的网络训练的是非常好的。这个过程,称为推理(Inference)。Supervised Learning有原创 2021-12-13 13:35:18 · 2233 阅读 · 0 评论 -
CV学习笔记-BP神经网络训练实例(含详细计算过程与公式推导)
借助一个简单的BP神经网络结构,一步一步的将整个训练过程的计算过程以及公式推导过程展示一遍,内容步骤详细,没有跳步,数学基础仅需大学导数偏导数的基础。原创 2021-12-14 16:41:12 · 6129 阅读 · 1 评论 -
最邻近插值算法(Python源码示例)
最邻近插值法,一种简单的实现图片放缩的算法,效率高,效果一般。原创 2021-12-17 15:29:21 · 3420 阅读 · 0 评论 -
CV学习笔记-卷积神经网络
卷积神经网络1. 卷积神经网络简介1. 定义卷积神经网络(Convolutional Neural Networks, CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工原创 2022-01-21 14:11:42 · 2204 阅读 · 0 评论 -
CV学习笔记-Alexnet
Alexnet1. 背景AlexNet是2012年ImageNet竞赛冠军获得者Hinton和他的学生Alex Krizhevsky设计的。也是在那年之后,更多的更深的神经网络被提出。2. 网络结构原网络结构:这个原述解释的是上面一半与下面一半分别跑在不同的GPU上,所以将原生网络简化成下面结构,来具体看看中间的过程如何计算。详解:输入接收一个三通道的二维224$\times$224矩阵,故而原始输入图片输入网络应当先进行处理,resize到(224,224,3)。使用步长为4原创 2022-02-13 23:35:36 · 1298 阅读 · 0 评论 -
CV学习笔记-CNN-VGG
CNN-VGG1 . 图像识别的过程**获取原始信息:**通过传感器将获取到的外界信息(比如图像)转换为计算机可以处理的信号。**预处理:**对图像进行平移变换、旋转、去噪声…操作,目的是加强图像中的感兴趣特征。**特征抽取与特征选择:**是指在模式识别中,需要进行特征的抽取和选择。特征抽取和选择在图像识别过程中是非常关键的技术之一。**分类器设计:**是指通过训练而得到一种识别规则,通过此识别规则可以得到一种特征分类,使图像识别技术能够得到高识别率。分类决策是指在特征空间中对被原创 2022-05-20 10:31:17 · 2206 阅读 · 0 评论 -
CV学习笔记-BP神经网络代码Python实例
实现简单的BP神经网络的实例编写,面向对象的思路编写,可以手动调参方便更改,更改应哟用不必大量重构,欢迎初学者学习,本篇代码涵盖了神经网络的输入层、隐藏层、输出层,实现了简单的实例使用。......原创 2022-07-28 19:50:09 · 7350 阅读 · 4 评论 -
CV学习笔记-VGG
VGG属于一种经典的卷积神经网络结构,其出现在AlexNet之后,由于AlexNet的突破证实了卷积神经网络的可行性,VGG的思路主要是将网络层数加深,从某种意义上说,网络层数的加深可以粗略地认为考虑判定问题的条件增多,导致判定器更加准确,实际上原理应该更加复杂,关于深度学习的可解释性一直以来是个比较难的问题,直观的感受来自于多项式拟合,当不同次数的项越多拟合一个数据集(点)形成的线越准确。VGG属于对传统卷积神经网络优化思路的典范。原创 2023-01-27 00:02:03 · 811 阅读 · 6 评论 -
CV学习笔记-Inception
Inception作为卷积神经网络的里程碑式的网络结构,提出了非对称卷积分解和Batch Normalization的创新,是深度学习卷积神经网络的必学点,其改变了传统网络越来越深的优化,提供了新的优化思路,本文对Inception的重点内容做了总结,可供读者学习参考。原创 2023-02-19 18:01:26 · 1555 阅读 · 51 评论 -
CV学习笔记-MobileNet
MobileNet是一个轻量级的卷积神经网络,可以在算力有限、内存有限的情况下保证比较优秀的识别效果,MobileNet可以为嵌入式设备深度学习提供有效的保障,本文摒弃了传统的概念介绍和论文分析,采用举例解释和代码工程同步展示的方式撰写,代码工程采用keras,通过测试可以运行。原创 2023-02-26 19:33:21 · 1591 阅读 · 24 评论 -
CV学习笔记-ResNet
ResNet一改之前对于网络持续堆叠卷积层池化层的风格,提出了里程碑式的残差结构的思想,既保证了特征提取又保留了原始信息,解决了网络层数过深导致退化问题的产生,本文通过通俗的语言和图示解释ResNet的核心思想,并给出基于Keras的实现代码复现核心结构。原创 2023-02-27 23:26:47 · 2803 阅读 · 59 评论 -
CV学习笔记-Faster-RCNN
本文以通俗的语言介绍了Two-stage典型目标检测算法Faster RCNN,将每个阶段的过程按照网络结构分模块分析,尽力举例清晰表达,文章最后一部分给出基于Keras的代码实现,能够体现设计思路。原创 2023-03-04 01:53:15 · 1932 阅读 · 46 评论 -
【建议收藏】深入浅出Yolo目标检测算法(含Python实现源码)
Yolo是经典的目标检测网络,作为One-stage的代表其快速准确的特点使得其在目标检测领域中的应用极其广泛,本文使用通俗易懂的文字描述Yolo的过程思想,并通过能够复现的代码实例实现最经典的yolov3原创 2023-03-08 12:19:39 · 2775 阅读 · 46 评论 -
人脸识别经典网络-MTCNN(含Python源码实现)
mtcnn为一个经典的人脸识别的卷积神经网络,其使用的图像金字塔作为一种常用的尺度处理手段,一致在CV领域流行使用,mtcnn提出了P-Net、R-Net、O-Net分层的处理人脸信息、提取特征并优化标定框的方式,有很大的借鉴意义,本文从应用层面介绍了mtcnn,并给出了代码实践方案。原创 2023-03-19 15:28:37 · 20031 阅读 · 198 评论 -
图像分割技术及经典实例分割网络Mask R-CNN(含基于Keras Python源码定义)
图像分割技术是可以浅显的理解为精细化的目标检测过程,由于之前的目标检测算法只能使用标定框框定规则区域,从而进行分类,标出目标的大题区域,但是,在譬如自动驾驶领域,仅仅只有一个规则的区域去框定目标还是不够的,比如碰到车道线,那么仅仅用一个矩形区域框定车道线并不能准确地指导车辆的下一步动向,所以我们需要一个能够追溯细节的新应用领域,来将检测到的目标精细化。图像分割即为图片的每个对象创建一个像素级的掩膜,这样可以追溯到目标轮廓的更多细节。下图为细菌的图像分割例子,为每个细菌做了图像分割。原创 2023-04-02 13:21:18 · 8461 阅读 · 60 评论