- 博客(147)
- 收藏
- 关注
原创 《深度学习》bert自然语言处理框架
BERT(Bidirectional Encoder Representations from Transformers)是一个基于Transformer架构的双向编码器表示模型,它通过预训练学习到了丰富的语言表示,并可以用于各种自然语言处理任务。
2024-11-06 10:59:54
1876
1
原创 《深度学习》YOLO V4 整体架构的由来及用法 详解
OLO v4(You Only Look Once version 4)是一种目标检测算法,它属于计算机视觉领域中的一项重要技术。目标检测的任务是在图像或视频帧中准确地识别出多个目标(如人、车、动物等)的位置和类别。
2024-11-04 23:00:39
2115
3
原创 《深度学习》YOLO V3 网络构架解析
相比于YOLOv1和v2,YOLOv3最大的改进就是网络结构,使其更适合小目标检测,特征做的更细致,融入多持续特征图信息来预测不同规格物体,先验框更丰富了,3种scale,每种3个规格,一共9种softmax改进,预测多标签任务。和YOLOv2一样都是使用的darknet网络结构,v1用的GoogLeNet网络
2024-10-23 16:11:15
2653
原创 《深度学习》YOLO系列v2 网路构架解析
V2版本舍弃Dropout(抛弃神经元比例),卷积后全部加入BatchNormalization,网络的每一层的输入都做了归一化,经过卷积后输出特征图,特征图输出到下一层卷积,收敛相对更容易,经过Batch Normalization处理后的网络会提升2%的mAP,从现在的角度来看,Batch Normalization已经成网络必备处理
2024-10-23 14:34:54
1721
原创 《深度学习》YOLO v1网络架构 、损失值、NMS极大值抑制
pi(C)-p^i(C)表示预测的类别的概率减去真实标签的概率,例如模型输出20类别的结果,即有20个数据,其中有预测到狗的概率,加入标签打的是狗,只需要将20个数据中预测狗额概率的值取出来,然后减去1,在对结果平方即可。前面的求和符号s平方表示网格的格式,例如YOLO v1中的网格个数为7*7,然后B表示预选框的个数,此处数值为2,后面的x表示预选框的中心点的坐标x,y,以及预选框的宽w、高h。例如上图中,同一个人脸被多个预选框预测出来,导致了预选框的重叠,此时可以将置信度低的抑制了,只保留最大的那个。
2024-10-22 21:45:56
1589
原创 《深度学习》 了解YOLO基本知识
YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,由Joseph Redmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置,例如下图所示。YOLO算法将输入图像分成SxS个网格,每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外,YOLO算法还采用了多尺度特征融合的技术,使得算法能够在不同尺度下对目标进行检测。关于不同尺度:例如在ResNet残差网络。
2024-10-22 01:45:00
3332
1
原创 《深度学习》模型的部署、web框架 服务端及客户端案例
模型部署是指将训练好的机器学习模型或深度学习模型运行在专属的计算资源上,使模型在独立的运行环境中高效、可靠地运行,并为业务应用提供推理服务。将模型应用于实际业务中,使最终用户或系统能够利用模型的输出,从而发挥其作用。部署模型的目的是将模型应用到实际问题中,以实现预测、分类、推荐等任务,并为用户或业务提供实时的决策支持。以及将模型尽可能有效地集成到实际系统中,并确保其能够高效地运行,满足实际业务需求。
2024-10-21 18:52:25
1304
1
原创 《深度学习》dlib 人脸应用实例 仿射变换 换脸术
仿射变换(Affine Transformation)是指在向量空间中进行一次线性变换(乘以一个矩阵)和一次平移(加上一个向量),变换到另一个向量空间的过程,即对图像进行形状、大小和方位的变换。# 定义关键点索引JAW_POINTS = list(range(0,17)) # 脸部轮廓关键点RIGHT_BROW_POINTS = list(range(17,22)) # 左眉毛LEFT_BROW_POINTS = list(range(22,27)) # 右眉毛。
2024-10-21 01:00:00
1248
原创 《深度学习》Dlib 人脸应用实例 性别年龄预测 案例实现
frameHeight,frameWidth = frame.shape[:2] # 获取视频帧的高度、宽度# 使用OpenCV中的深度神经网络模块将图像转变成深度神经网络可以识别处理的格式# 1.0表示图像的缩放因子# 输出blob图像大小为300*300,表示无论输入图像多大都会调整为300*300像素# [104,117,123]为图像通道的均值列表,BGR,用于从每个像素减去对应通道均值# 第一个True表示是否交换蓝色和红色通道。
2024-10-20 15:14:05
1322
原创 《深度学习》Dlib库 CNN卷积神经网络 人脸识别
池化层用于对卷积层输出的特征图进行下采样,减少特征图的尺寸和参数数量。卷积层是CNN的核心组成部分之一,它通过应用一组卷积核(也称为滤波器)在输入图像上滑动,提取图像的局部特征。全连接层将前面的卷积层或池化层输出的特征图展平,并与相邻层的所有神经元进行全连接操作。使用提取的人脸特征向量来比较不同人脸之间的相似度。使用Dlib库提供的人脸检测器来检测输入图像中的人脸,并将每个检测到的人脸提取为一个矩形框。使用CNN模型对每个检测到的人脸图像进行特征提取,得到一个固定长度的向量表示每个人脸。
2024-10-20 01:00:00
1334
原创 《深度学习》Dlib库 人脸应用实例 表情识别
代码内容为一个人脸表情识别程序,它使用dlib库进行人脸检测和形状预测(即关键点定位),然后基于这些关键点计算特征值来判断人脸的表情(正常、微笑、大笑程序还使用opencv-python(cv2)库来处理视频帧和绘制结果,以及PIL库来在图像上添加中文文本。
2024-10-19 20:04:55
1323
原创 《深度学习》Dlib、OpenCV 轮廓绘制
在Dlib中,人脸识别的轮廓绘制是指通过检测人脸的关键点位置,使用直线或曲线连接这些关键点,从而绘制出人脸的轮廓线条。这些关键点通常包括眉毛、眼睛、鼻子、嘴巴等部位的位置。通过绘制人脸轮廓,可以对人脸进行更精确的分析和识别。
2024-10-18 02:45:00
1575
2
原创 《深度学习》Dlib、OpenCV 关键点定位 原理及案例解析
关键点定位是指在人脸图像中自动定位人脸的关键点,如眼睛、鼻子、嘴巴等特征点。在dlib中,通过使用预训练的模型(如)来实现,该模型可以检测并标定68个面部特征点,这些特征点包括脸颊、眉毛、眼睛、鼻子、嘴巴等部位的关键点,通过它们可以对人脸进行更深入的分析和处理。
2024-10-18 01:45:00
1288
原创 《深度学习》OpenCV库、Dlib库 人脸检测 案例解析
Dlib库是一个适用于C++和Python的第三方库。包含机器学习、计算机视觉和图像处理的工具包,被广泛的应用于机器人、嵌入式设备、移动电话和大型高性能计算环境。是开源许可用户免费使用。
2024-10-17 01:00:00
1954
1
原创 《深度学习》OpenCV EigenFaces算法 人脸识别
EigenFaces算法,又称为基于主成分分析(Principal Component Analysis,PCA)的人脸识别方法,是一种在人脸识别领域具有重要地位的经典算法。主成分分析(PCA)是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将n×m的矩阵转换成n×k的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量。
2024-10-16 19:38:32
1497
原创 《深度学习》OpenCV LBPH算法人脸识别 原理及案例解析
在OpenCV中,LBPH(Local Binary Patterns Histogram,局部二值模式直方图)算法主要用于人脸识别任务。 LBPH是一种用于图像特征提取的算法。它首先将图像划分为小的局部区域,然后在每个区域中提取局部二值模式(Local Binary Patterns)。
2024-10-16 15:49:26
1380
原创 《深度学习》OpenCV 人脸检测、微笑检测 原理及案例解析
矩形框要逐像素点地划过(遍历) 整个图像获取每个位置的特征值。•矩形的大小可以根据需要进行任意调整。包含垂直、水平、对角等不同类型,如下所示。特征值 = ∑特征区域中白色区域的像素值-黑色区域像素值(Haar特征反映的是图像的灰度变化)
2024-10-14 10:34:14
3336
2
原创 《深度学习》OpenCV 物体跟踪 原理及案例解析
物体跟踪是指在一个视频序列中持续追踪特定的物体。这可以在许多应用程序中很有用,例如目标识别、视频监控和增强现实。
2024-10-13 20:04:49
1316
1
原创 《深度学习》OpenCV 风格迁移、DNN模块 案例解析及实现
风格迁移是一种计算机视觉技术,通过将一幅图像的风格与另一幅图像的内容结合,生成一个新的图像。在OpenCV中,风格迁移通常使用神经网络来实现。import cv2def resize(image,width=None,height=None ,inter=cv2.INTER_AREA): # 输入参数为图像、可选宽度、可选高度、插值方式默认为cv2.INTER_AREA,即面积插值dim = None # 存储计算后的目标尺寸w、h。
2024-10-13 17:16:39
1034
原创 《深度学习》【项目】OpenCV 答题卡识别 项目流程详解
使用OpenCV对答题卡图像进行预处理,包括图像二值化、噪声去除、边缘检测等操作,以提高后续识别的准确性.......
2024-10-11 21:40:48
1297
2
原创 《深度学习》LSTM 长短期记忆网络 结构及原理解析
LSTM网络,全称长短期记忆网络(Long Short-Term Memory network),是一种特殊的循环神经网络(RNN)架构,大部分与RNN模型相同,但它们用了不同的函数来计算隐状态h,旨在解决传统RNN在处理长序列数据时遇到的梯度消失或梯度爆炸问题。LSTM网络通过引入自循环的巧妙设计,使得信息能够在网络中长期保留或遗忘,从而能够捕获长距离的时间依赖关系。
2024-10-09 19:25:49
2160
1
原创 《深度学习》循环神经网络RNN 结构及原理解析
RNN循环神经网络是一种用于处理序列数据的神经网络架构。其在处理序列输入时具有记忆性,可以保留之前输入的信息并继续作为后续输入的一部分进行计算。与传统的前馈神经网络不同,RNN能够在处理序列数据时捕捉序列中的时间依赖关系,即当前时刻的输出不仅依赖于当前时刻的输入,还依赖于过去时刻的输入(或称为状态)。
2024-10-09 10:54:02
1215
2
原创 《深度学习》神经语言模型 Word2vec CBOW项目解析、npy/npz文件解析
Word2Vec是一种用于将单词表示为连续向量的技术。它是一种浅层、双层的神经网络模型,用于训练单词的分布式表示。Word2Vec模型将单词映射到一个低维向量空间中,使得具有相似含义的单词在向量空间中距离较近。这种表示方法有助于在自然语言处理任务中更好地捕捉和理解单词之间的语义关系。npy文件是NumPy库中用于保存数组数据的二进制文件格式。npz文件是NumPy用于存储数值数据的压缩格式。它实际上是一个压缩存档文件,可以包含一个或多个NumPy数组。
2024-10-08 21:47:53
1512
原创 《深度学习》OpenCV 摄像头OCR 过程及案例解析
OpenCV摄像头OCR是一个使用OpenCV库和OCR技术实现的工具,它可以通过摄像头实时读取图像,然后利用OCR(光学字符识别)技术将图像中的文本内容提取出来。这个工具可以应用于各种场景,例如扫描身份证、识别车牌号、读取条形码等。使用OpenCV摄像头OCR,可以方便地在实时图像中进行文本识别和处理。
2024-10-05 16:15:45
2537
6
原创 《深度学习》OpenCV 背景建模 原理及案例解析
背景建模是指通过分析视频序列中的像素值变化情况,从中提取出静态背景部分,并将其用于目标检测、运动跟踪等计算机视觉任务中。在实际应用中,背景建模常用于视频监控、行人检测、车辆识别等领域。在视频中,背景通常被定义为相对稳定的部分,例如墙壁、地面或天空等。背景建模的目标是将动态的前景对象与静态的背景进行分离,以便进一步分析和处理。
2024-10-02 10:41:42
2705
8
原创 《深度学习》OpenCV 指纹验证、识别
在OpenCV中,指纹验证是一种图像处理技术,用于识别和验证人类指纹。指纹是一种独特的生物特征,每个人的指纹都具有独特的纹路和图案。指纹验证使用这些独特的特征来确认一个人的身份。指纹图像的提取和指纹图像的匹配。在指纹图像提取阶段,OpenCV会处理输入的图像,通过一系列的图像处理和特征提取算法,提取出指纹图像中的纹路和图案。在指纹图像匹配阶段,OpenCV会将提取的指纹图像与一个或多个预先存储的指纹模板进行比对。比对过程中,OpenCV会计算两幅指纹图像之间的相似度,并根据相似度的阈值进行判断。
2024-09-30 02:45:00
4716
8
原创 《深度学习》OpenCV 图像拼接 原理、参数解析、案例实现
图像拼接是指将多个图像拼接成一个大图像。在计算机视觉和图像处理领域,图像拼接常用于创建全景图像、创建大幅面照片、图像拼接等应用。import cv2import sysdef detectAndDescribe(image): # 函数用于gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY) # 将影色园片转换成死没图descriptor = cv2.SIFT_create() # 建立SIFT生成器。
2024-09-29 21:11:02
2436
原创 《深度学习》OpenCV 角点检测、特征提取SIFT 原理及案例解析
角点检测是计算机视觉中的一种特征检测方法,用于寻找图像中的角点或者具有角点特征的图像区域。角点是指图像中突然改变方向的点,即在其周围的不同方向上都有较大的灰度变化。角点具有一些特殊性质,如旋转不变性、尺度不变性和光照不变性等,因此在图像处理和计算机视觉中具有广泛的应用。特征提取是指从原始数据中提取出具有辨识性和代表性的特征,用于描述和表示数据的关键信息。在计算机视觉、模式识别和机器学习等领域,特征提取是一项关键的任务,因为原始数据通常含有大量冗余和噪声,通过提取特征可以减少数据的维度、去除冗余信息。
2024-09-29 03:30:00
2754
3
原创 《深度学习》【项目】OpenCV 发票识别 透视变换、轮廓检测解析及案例解析
透视变换是一种图像处理技术,用于将二维平面上的图像或物体映射到三维空间中。它通过改变图像的视角和投影来创建一个具有透视效果的图像。透视变换通常用于计算机图像形态学和计算机视觉领域,用于实现图像的透视效果立体视觉图像校正等应用。它可以模拟人眼在观察远景时的透视效果,使得远处的物体看起来比近处的物体小,同时使得平行线在远处会相交的视觉效果。透视变换的实现通常需要通过计算图像中各点在三维空间中的坐标,并将其映射回二维平面上,从而实现透视效果。这个过程涉及到几何变换矩阵运算和投影变换等数学概念和算法。
2024-09-28 22:22:07
1845
3
原创 《深度学习》自然语言处理 统计、神经语言模型 结构、推导解析
自然语言处理(Natural Language Processing,NLP)是一门研究人类语言与计算机之间交互的领域。它涉及了计算机科学、人工智能和语言学等多个学科,致力于使计算机能够理解、分析、处理和生成人类自然语言。自然语言处理的目标是使计算机能够像人类一样对语言进行理解和处理。这包括了自动文本摘要、机器翻译、情感分析、文本分类、问答系统、语音识别、语义理解等多个任务。
2024-09-28 18:00:54
1613
1
原创 《深度学习》迁移学习综合应用 原理、案例解析与实现
迁移学习是指利用已经训练好的模型,在新的任务上进行微调。迁移学习可以加快模型训练速度,提高模型性能,并且在数据稀缺的情况下也能很好地工作。def train(dataloader,model,loss_fn,optimizer): # 传入打包好的数据,预定义的残差网络模型,损失函数,优化器model.train() # 模型进行训练模式for x,y in dataloader: # 遍历每个打包的图片的信息及标签。
2024-09-26 21:22:52
1812
原创 《深度学习》ResNet残差网络、BN批处理层 结构、原理详解
ResNet(Residual Neural Network)是一种深度卷积神经网络结构,由Kaiming He等人在2015年提出,斩获当年ImageNet竞赛中分类任务第一名,目标检测第一名。获得COCO数据集中目标检测第一名,图像分割第一名。它通过使用残差块(Residual Block)来克服深度神经网络训练中的梯度消失等问题,使得网络可以更深地进行训练。
2024-09-25 17:53:29
1583
1
原创 《深度学习》卷积神经网络 使用最优模型、调整学习率 用法解析及案例实现
在深度学习中,最优模型指的是在给定的任务上具有最好性能的模型。最优模型通常通过最小化损失函数来确定,该损失函数能够衡量模型在训练数据上的预测结果与真实结果之间的差异。最优模型具有较低的训练误差和有效的泛化能力,能够在未见过的测试数据上表现良好。为了找到最优模型,通常会使用优化算法,如梯度下降算法,来更新模型的参数,直到找到损失函数的最小值。最优模型的选择通常基于多个因素,如训练数据的质量和数量,模型的复杂性和计算资源的限制。学习率是优化算法中一个重要的超参数,用于控制模型参数在每次更新时的调整幅度。
2024-09-25 11:25:56
1847
原创 《深度学习》卷积神经网络 数据增强、保存最优模型 原理解析及实例实现
数据增强(data augmentation)是指通过对原始训练数据进行一系列变换和扩充,生成新的训练样本,以增加训练数据的多样性和数量,从而提升深度学习模型的泛化能力和鲁棒性。保存最优模型指的是在训练过程中,根据某个指标(如验证集准确率或损失函数值)的表现,选择最好的模型参数并将其保存下来,然后形成一个文件,后缀名为pt\ppt\t7。在深度学习中,模型的训练过程通常是通过迭代优化算法(如梯度下降)来不断调整模型的参数,以最小化目标函数(如损失函数)。
2024-09-24 22:02:35
1849
原创 《深度学习》卷积神经网络CNN 实现手写数字识别
卷积神经网络是一种深度学习模型,主要应用于图像和视频处理任务。它的设计灵感来源于生物视觉系统的工作原理。"""定义神经网络"""class CNN(nn.Module): # 继承nn算法中的Moduledef __init__(self): # 这里输入大小为(1,28,28)self.conv1 = nn.Sequential( # 第一层卷积, 将多个层组合成一起。nn.Conv2d( # 二维卷积成,2d一般用于图像,3d用于视频数据(多一个时间维度),1d一般用于结构化的序列数据。
2024-09-23 21:16:26
2311
6
空空如也
主机ip地址经常变是啥问题啊
2024-08-28
TA创建的收藏夹 TA关注的收藏夹
TA关注的人