人工智能糕手-优快云博客

原创（21）bert自然语言处理框架

BERT（Bidirectional Encoder Representations from Transformers）是一个基于Transformer架构的双向编码器表示模型它通过预训练学习到了丰富的语言表示，并可以用于各种自然语言处理任务。

2025-10-29 21:12:27 633

1. 在Python中，可以表示真假的数据类型是：布尔类型，字面量True表示真，字面量False表示假 2. 除了可以定义布尔类型外，还可以通过____计算得到布尔类型？通过<比较运算符>计算得到布尔类型的结果 == 判断是否相等，!= 判断是否不相等 >判断是否大于，<判断是否小于 >=判断是否大于等于，<=判断是否小于等于1. if语句的基本格式 2. if语句的注意事项：判断条件的结果一定要是布尔类型不要忘记判断条件后的：引号归属于if语句的代码块，需在前方填充4个空格缩进。

2025-10-28 22:09:32 255

原创（20）YOLO V4 整体架构的由来及用法详解

（对输入的特征图放大或缩小达到固定尺寸），保证传到下一层全连接层的输入固定。在普通的CNN机构中，输入图像的尺寸往往是固定的（比如224*224像素），输出则是一个固定维数的向量。SPP-Net在普通的CNN结构中加入了。

2025-10-23 21:12:26 816

原创（19）YOLO V3 网络构架解析

在COCO数据集这9个先验框是：(10x13)，(16x30)，(33x23)，(30x61)，(62x45)，(59x119)，(116x90)，(156x198)，(373x326)。分配上，在最小的13*13特征图上（有最大的感受野）应用较大的先验框(116x90)，(156x198)，(373x326)，适合检测较大的对象。较大的52*52特征图上（较小的感受野）应用较小的先验框(10x13)，(16x30)，(33x23)，适合检测较小的对象。YOLOv2使用了5个先验框，这里的v3使用了。

2025-10-14 22:26:08 1377

原创（18）YOLO系列v2 网路构架解析

中，如下图所示，当输入一张图片大小为224*224，经过卷积核处理后，得到的特征图再次进行卷积，到最后的全连接，可以发现，全连接前特征图大小为128*13*13，此时想要经过全连接得到2048个结果需要的权重参数w的个数为128*13*13*2048个，这个数目非常庞大，此时如果传入其他大小的图像，这个权重参数则无法对其进行更新，因为不同大小的输入图片对应输出的特征图大小都是不一样的，这就导致全连接时的权重参数个数都是不同的，所以针对不同尺度的图像，这个卷积神经网络的系统则无法进行处理。

2025-10-10 21:53:59 1259

原创（17）YOLO基本知识，YOLO v1网络架构、损失值、NMS极大值抑制

pi(C)-p^i(C)表示预测的类别的概率减去真实标签的概率，例如模型输出20类别的结果，即有20个数据，其中有预测到狗的概率，加入标签打的是狗，只需要将20个数据中预测狗额概率的值取出来，然后减去1，在对结果平方即可。前面的求和符号s平方表示网格的格式，例如YOLO v1中的网格个数为7*7，然后B表示预选框的个数，此处数值为2，后面的x表示预选框的中心点的坐标x，y，以及预选框的宽w、高h。例如上图中，同一个人脸被多个预选框预测出来，导致了预选框的重叠，此时可以将置信度低的抑制了，只保留最大的那个。

2025-10-10 21:47:44 1131

原创（16）模型的部署、web框架服务端及客户端案例

模型部署是指将训练好的机器学习模型或深度学习模型运行在专属的计算资源上，使模型在独立的运行环境中高效、可靠地运行，并为业务应用提供推理服务。本篇介绍了，如何进行模型部署，将客户端与服务端连接在一起，使客户可以借用服务端来操作。

2025-10-09 21:53:08 758

原创如何姿态估计

还是和前面那个由于使用的是，进行检测。

2025-10-09 21:38:46 226

原创（15）深度学习【项目】自然语言处理——情感分析＜下＞

前向传播测试函数创建一个文件，将下列代码写入其中def evaluate(class_list,model,data_iter,test=False): # 传入参数：种类名称列表、训练好的模型、验证集数据，test表示是否进行测试模式model.eval() # 模型开始测试loss_total = 0 # 初始化总损失值为0predict_all = np.array([],dtype=int) # 定义一个数组用于存放预测结果的标签。

2025-10-09 21:32:42 355

原创（14）深度学习【项目】自然语言处理——情感分析＜上＞

可以统一使用一个数字（非词/字的数字）替代，即选择了评论固定长度的文字后，这段文字内可能有频率低的字，将其用一个数字替代，项目内使用<UNK>替代。，如何固定长度接着看，固定长度每次传入数据与图像相似，例如输入评论长度为32，那么传入的数据为32*200的矩阵，表示这一批词的独热编码，200表示维度。将下列代码放入创建的文件名为load_dataset.py的文件中，后面还有代码需要往里增加。缺少的内容，统一使用一个数字（非词/字的数字）替代，项目中使用<PAD>填充。超出的直接删除后面的内容。

2025-09-28 21:41:31 1541

原创（24）【进阶OpenCV】（20） --疲劳检测

本篇介绍了，如何通过人脸部眼睛的变化来简单的进行疲劳检测。

2025-09-25 21:39:40 548

原创（23）Dlib、OpenCV 轮廓绘制

在Dlib中，人脸识别的轮廓绘制是指通过检测人脸的关键点位置，使用直线或曲线连接这些关键点，从而绘制出人脸的轮廓线条。这些关键点通常包括眉毛、眼睛、鼻子、嘴巴等部位的位置。通过绘制人脸轮廓，可以对人脸进行更精确的分析和识别。

2025-09-25 21:34:52 707

原创（22）Dlib、OpenCV 关键点定位原理及案例解析

关键点定位是指在人脸图像中自动定位人脸的关键点，如眼睛、鼻子、嘴巴等特征点。在dlib中，通过使用预训练的模型（如）来实现，该模型可以检测并标定68个面部特征点，这些特征点包括脸颊、眉毛、眼睛、鼻子、嘴巴等部位的关键点，通过它们可以对人脸进行更深入的分析和处理。

2025-09-25 21:33:08 419

原创（21）OpenCV库、Dlib库人脸检测案例解析

Dlib。

2025-09-25 21:31:37 475

原创（13）LSTM 长短期记忆网络结构及原理解析

LSTM网络，全称长短期记忆网络（Long Short-Term Memory network），是一种特殊的循环神经网络（RNN）架构，大部分与RNN模型相同，但它们用了不同的函数来计算隐状态h，旨在解决传统RNN在处理长序列数据时遇到的梯度消失或梯度爆炸问题。LSTM网络通过引入自循环的巧妙设计，使得信息能够在网络中长期保留或遗忘，从而能够捕获长距离的时间依赖关系。

2025-09-24 21:54:59 1395

原创（12）循环神经网络RNN 结构及原理解析

循环神经网络RNN循环神经网络）是一种用于处理序列数据的神经网络架构。其在处理序列输入时具有记忆性，可以保留之前输入的信息并继续作为后续输入的一部分进行计算。与传统的前馈神经网络不同，RNN能够在处理序列数据时捕捉序列中的时间依赖关系，即当前时刻的输出不仅依赖于当前时刻的输入，还依赖于过去时刻的输入（或称为状态）。如下图所示，例如有一句话，“我要去打球”，将其分词成“我”、“要”、“去”、“打球”，第一个词的词向量。

2025-09-24 21:52:24 961

原创（20）OpenCV FisherFaces算法人脸识别

Fisherfaces采用LDA线性判别分析）实现人脸识别。

2025-09-23 21:59:13 840

原创（19）OpenCV EigenFaces算法人脸识别

EigenFaces算法，又称为基于主成分分析（Principal Component Analysis，PCA）的人脸识别方法，是一种在人脸识别领域具有重要地位的经典算法。主成分分析（PCA）是一种矩阵的压缩算法，在减少矩阵维数的同时尽可能的保留原矩阵的信息，简单来说就是将n×m的矩阵转换成n×k的矩阵，仅保留矩阵中所存在的主要特性，从而可以大大节省空间和数据量。

2025-09-22 22:46:14 674

原创（18）OpenCV LBPH算法人脸识别

2）再将LBP图像分为多个区域，获取每个区域的LBP编码直方图，继而得到整幅图像的LBP编码直方图。将LBP图像分为多个区域，获取每个区域的LBP编码直方图，继而得到整幅图像的LBP编码直方图。1）以每个像素为中心，判断与周围像素灰度值大小关系，对其进行二进制编码，从而获得整幅图像的LBP编码图像。表示，其中，P表示圆形邻域内参与运算的像素点个数，R 表示圆形邻域的半径。最后，将所有局部区域的直方图组合在一起，形成整个图像的特征向量。再计算所有图像的LBP值，取其中最小值作为最终的值。

2025-09-22 22:44:43 876

原创大模型介绍

在这个连冰箱都能聊天的时代，人工智能正以“大模型”之名掀起巨浪。它们不是科幻电影里的神秘代码，而是由海量数据和复杂算法构建的智能引擎——能和你探讨哲学、生成代码、创作插画，甚至预测蛋白质结构。大模型的核心在于“大”：数十亿参数构成的神经网络，吞噬着人类千年文明积累的文字、图像与知识。它们像一块数字海绵，从维基百科的严谨词条，到社交媒体的碎片化表达，不断吸收、重组，最终学会理解并模仿人类的思维方式。这场革命已悄然渗透现实：程序员用AI助手调试代码，设计师与工具合作生成概念图，科学家借大模型加速药物研发。

2025-09-21 21:39:02 1374

原创（17）OpenCV 风格迁移、DNN模块案例解析及实现

风格迁移风格迁移是一种计算机视觉技术，通过将一幅图像的风格与另一幅图像的内容结合，生成一个新的图像。在OpenCV中，风格迁移通常使用神经网络来实现。DNNimport cv2def resize(image,width=None,height=None ,inter=cv2.INTER_AREA): # 输入参数为图像、可选宽度、可选高度、插值方式默认为cv2.INTER_AREA,即面积插值dim = None # 存储计算后的目标尺寸w、h。

2025-09-17 17:36:44 1746

原创（16）光流估计原理、案例解析

光流估计光流估计是指通过计算相邻帧之间的像素位移，来估计图像中物体的运动信息。

2025-09-16 22:27:05 308

原创（15）OpenCV 物体跟踪原理及案例解析

物体跟踪是指在一个视频序列中持续追踪特定的物体。这可以在许多应用程序中很有用，例如目标识别、视频监控和增强现实。

2025-09-16 22:25:09 478

原创（14）OpenCV 背景建模原理及案例解析

背景建模是指通过分析视频序列中的像素值变化情况，从中提取出静态背景部分，并将其用于目标检测、运动跟踪等计算机视觉任务中。在实际应用中，背景建模常用于视频监控、行人检测、车辆识别等领域。在视频中，背景通常被定义为相对稳定的部分，例如墙壁、地面或天空等。背景建模的目标是将动态的前景对象与静态的背景进行分离，以便进一步分析和处理。

2025-09-16 22:22:38 977

原创（13）OpenCV 摄像头OCR

import cv2# 调整图像高宽，保持图像宽高比不变def resize(image,width=None,height=None ,inter=cv2.INTER_AREA): # 输入参数为图像、可选宽度、可选高度、插值方式默认为cv2.INTER_AREA,即面积插值dim = None # 存储计算后的目标尺寸w、h(h,w) = image.shape[:2] # 返回输入图像高宽。

2025-09-15 23:04:12 905

原创（12）【项目】OpenCV 答题卡识别项目流程详解

输入轮廓外接四边形的四个顶点，对其进行排序，返回排序后的点坐标def order_points(pts): # 对输入的四个点按照左上、右上、右下、左下进行排序rect = np.zeros((4,2),dtype='float32') # 创建一个4*2的数组，用来存储排序之后的坐标位置# 按顺序找到对应坐标0123分别是左上、右上、右下、左下s = pts.sum(axis=1) # 对pts矩阵的每个点的x y相加。

2025-09-14 21:27:16 887

原创（11）OpenCV 图像拼接原理、参数解析、案例实现

图像拼接图像拼接是指将多个图像拼接成一个大图像。在计算机视觉和图像处理领域，图像拼接常用于创建全景图像、创建大幅面照片、图像拼接等应用。import cv2import sysdef detectAndDescribe(image): # 函数用于gray = cv2.cvtColor(image,cv2.COLOR_BGR2GRAY) # 将影色园片转换成死没图descriptor = cv2.SIFT_create() # 建立SIFT生成器。

2025-09-13 23:27:51 1152

原创（11）OpenCV 指纹验证、识别

在OpenCV中，指纹验证是一种图像处理技术，用于识别和验证人类指纹。指纹是一种独特的生物特征，每个人的指纹都具有独特的纹路和图案。指纹验证使用这些独特的特征来确认一个人的身份。指纹图像的提取和指纹图像的匹配。在指纹图像提取阶段，OpenCV会处理输入的图像，通过一系列的图像处理和特征提取算法，提取出指纹图像中的纹路和图案。在指纹图像匹配阶段，OpenCV会将提取的指纹图像与一个或多个预先存储的指纹模板进行比对。比对过程中，OpenCV会计算两幅指纹图像之间的相似度，并根据相似度的阈值进行判断。

2025-09-12 21:58:41 1600

原创（10）OpenCV 角点检测、特征提取SIFT 原理及案例解析

角点检测是计算机视觉中的一种特征检测方法，用于寻找图像中的角点或者具有角点特征的图像区域。角点是指图像中突然改变方向的点，即在其周围的不同方向上都有较大的灰度变化。角点具有一些特殊性质，如旋转不变性、尺度不变性和光照不变性等，因此在图像处理和计算机视觉中具有广泛的应用。特征提取是指从原始数据中提取出具有辨识性和代表性的特征，用于描述和表示数据的关键信息。在计算机视觉、模式识别和机器学习等领域，特征提取是一项关键的任务，因为原始数据通常含有大量冗余和噪声，通过提取特征可以减少数据的维度、去除冗余信息。

2025-09-11 22:33:48 1125

原创（9）OpenCV 发票识别透视变换、轮廓检测解析及案例解析

透视变换透视变换是一种图像处理技术，用于将二维平面上的图像或物体映射到三维空间中。它通过改变图像的视角和投影来创建一个具有透视效果的图像。透视变换通常用于计算机图像形态学和计算机视觉领域，用于实现图像的透视效果立体视觉图像校正等应用。它可以模拟人眼在观察远景时的透视效果，使得远处的物体看起来比近处的物体小，同时使得平行线在远处会相交的视觉效果。透视变换的实现通常需要通过计算图像中各点在三维空间中的坐标，并将其映射回二维平面上，从而实现透视效果。这个过程涉及到几何变换矩阵运算和投影变换等数学概念和算法。

2025-09-11 22:20:21 1102

原创（8）OpenCV 高阶图像直方图、掩码图像参数解析及案例实现

图像直方图图像直方图是描述图像像素值分布情况的统计图形。它表示了图像中不同像素值的数量或频率。在图像直方图中，横轴表示像素值的范围，通常为0-255纵轴表示像素值的数量或频率。直方图的每一个条柱代表某个像素值范围内像素的数量或频率。例如，柱子的高度表示图像中具有该像素值的像素的数量或出现的频率。掩码图像（Mask Image）是一种与原图像具有相同尺寸的二进制图像，其中像素值为0或255或其他非零值掩码图像用于指示在应用某些图像处理操作时要处理的特定区域。

2025-09-11 21:29:23 848

原创（7）OpenCV 高阶图像金字塔（上下采样）

图像金字塔图像金字塔是由一幅图像的多个不同分辨率的子图构成的图像集合。是通过一个图像不断的降低采样率产生的，最小的图像可能仅仅有一个像素点。图像金字塔的底部是待处理的高分辨率图像（原始图像），而顶部则为其低分辨率的近似图像。表示拉普拉斯金字塔中的第i层表示高斯金字塔中的第i层表示高斯金字塔中的第 i+1 层。

2025-09-11 21:21:40 572

原创（6）初识OpenCV之身份证号识别

图像识别是计算机视觉领域中的一个重要任务，其目标是让计算机能够理解和解释图像中的内容以及进行自动化的图像分析和处理。图像识别技术可以应用于很多领域，例如人脸识别、物体检测、车牌识别等。

2025-09-09 22:07:40 766

原创（5）OpenCV基础之信用卡号识别

命令行参数自定义命令行参数是指在编写命令行程序时，由程序开发者定义并期望用户通过命令行界面（CLI）输入的参数。这些参数允许用户向程序传递额外的信息或配置，以便程序能够根据这些信息执行不同的操作或行为。在Python中，使用argparse模块可以方便地定义和解析自定义命令行参数。argparse模块提供了丰富的功能来定义参数的类型、默认值、是否必需等属性，并能够在用户没有按预期提供参数时给出友好的帮助信息。1）位置参数（Positional Arguments）位置参数是按照位置顺序提供的参数。

2025-09-09 22:01:14 1016

空空如也

空空如也