地里的小趴菜-优快云博客

原创 yolov8使用opencv 调用摄像头，实时目标检测、分割、关键点检测，左上角显示帧率

【代码】yolov8使用opencv 调用摄像头，实时目标检测，左上角显示帧率。

2024-07-19 19:19:16 2216

原创目标跟踪初探（DeepSORT）

本文首先将介绍在目标跟踪任务中常用的和，然后介绍经典算法的工作流程以及对相关源码进行解析。YOLOv4+DeepSort实现行人追踪轨迹提取目前主流的目标跟踪算法都是基于策略，即基于目标检测的结果来进行目标跟踪。DeepSORT运用的就是这个策略，上面的视频是DeepSORT对人群进行跟踪的结果，每个bbox左上角的数字是用来标识某个人的唯一ID号。这里就有个问题，视频中不同时刻的同一个人，位置发生了变化，那么是如何关联上的呢？答案就是匈牙利算法和卡尔曼滤波。

2024-07-15 09:49:10 1882

原创基于深度学习的行人重识别

其中 𝑎,𝑝,𝑚,𝑛 均是batch中的图片， 𝑎,𝑝 是batch中最不像的正样本对， 𝑚,𝑛 是batch 中最像的负样本对， 𝑎,𝑚 皆可以是正样本对也可以是负样本对。TriHard损失的核心思想是：对于每一个训练batch，随机挑选 𝑃 个ID的行人，每个行人随机挑选 𝐾 张不同的图片，即一个batch含有 𝑃×𝐾 张图片。TriHard损失会计算 𝑎 和batch中的每一张图片在特征空间的欧式距离，然后选出与 𝑎 距离最远（最不像）的正样本 𝑝 和距离最近（最像）的负样本 𝑛 来计算三元组损失。

2024-07-12 09:03:25 1813

原创一文搞懂 Redis 架构演化

总结一下，我们是如何从 0 到 1，再从 1 到 N 构建一个稳定、高性能的 Redis 集群的，从这之中你可以清晰地看到 Redis 架构演进的整个过程。数据怕丢失-> 持久化（RDB/AOF）恢复时间久-> 主从副本（副本随时可切）故障手动切换慢-> 哨兵集群（自动切换）读存在压力-> 扩容副本（读写分离）写存在压力/容量瓶颈-> 分片集群分片集群社区方案-> Twemproxy、Codis（Redis 节点之间无通信，需要部署哨兵，可横向扩容）分片集群官方方案。

2024-07-10 09:08:48 1246

原创 Milvus：向量数据库入门

随着互联网的发展和演变，非结构化数据变得越来越普遍，包括电子邮件、论文、物联网传感器数据、Facebook照片、蛋白质结构等。嵌入向量是非结构化数据的特征抽象，如电子邮件、物联网传感器数据、Instagram照片、蛋白质结构等。作为一个专门设计用于处理输入向量查询的数据库，它能够索引万亿级别的向量。与主要处理遵循预定义模式的结构化数据的现有关系数据库不同，Milvus从底层设计用于处理从非结构化数据转换而来的嵌入向量。向量相似性搜索是将一个向量与数据库进行比较，以找到与查询向量最相似的向量的过程。

2024-07-09 16:37:35 1651

原创开源车牌数据集CCPD介绍

传统车牌检测和识别都是在小规模数据集上进行实验和测试，所获得的算法模型无法胜任环境多变、角度多样的车牌图像检测和识别任务。例如:025-95_113-154&383_386&473-386&473_177&454_154&383_363&402-0_0_22_27_27_33_16-37-15.jpg。5) 0_0_22_27_27_33_16为车牌号码映射关系如下: 第一个为省份0 对应省份字典皖, 后面的为字母和文字, 查看ads字典.如0为A, 22为Y....1) 025为区域,

2024-07-05 19:13:04 1270

原创 IT专业入门，高考假期预习指南

在这个假期里，准新生们可以充分利用这段时间开启IT世界的探索之旅，为未来的学习和职业生涯打下坚实的基础。作为该领域的前行者和经验前辈，我很荣幸为准新生们提供一份全面的学习路线图，分享我的学习心得和实战经验，帮助他们为未来的IT学习和职业生涯做好充分准备。基础知识是学习任何技能的基石。例如，了解操作系统的基本原理和功能，如进程管理、内存管理、文件系统等，将有助于你们更好地理解计算机的工作原理。通过学习基础知识、编程语言、实战项目、专业领域和职业发展等方面的知识，你们将为未来的学习和职业生涯打下坚实的基础。

2024-07-02 19:50:26 973

原创 Transformer详解encoder

最近刚好梳理了下transformer，今天就来讲讲它~Transformer是谷歌大脑2017年在论文attention is all you need中提出来的seq2seq模型，它的本质就是由编码器和解码器组成，今天的主角则是其中的编码器（在BERT预训练模型中也只用到了编码器部分）如下图所示，这个模块的输入为 𝑋 （每一行代表一个句子，batchsize有多大就有多少行），我们将从输入到隐藏层按照从1到4的顺序逐层来看一下各个维度的变化。

2024-06-30 20:57:58 1728

原创一文搞懂Transformer-decoder

2024-06-29 08:43:48 4449 1

原创自注意力机制（Self-Attention）

Transformer模型中最关键部分就是自注意力（Self-Attention）机制，正如 Transformer 的论文的标题是“Attention Is All You Need”！以文本问题为例来讲解这个机制。在处理文本问题时，自注意力机制会告诉模型：在处理句子中的每个单词时，特别关注某些重要的单词，并或多或少地忽略其它单词。简单来说，就是给句子中不同单词分配不同的权重。

2024-06-28 08:33:22 6537

原创 LSTM理解

本文将从LSTM的本质、LSTM的原理、LSTM的应用三个方面，带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。

2024-06-27 10:42:18 1278

原创一文读懂循环神经网络(RNN)

循环神经网络（Recurrent Netural Network,Rnn)是一类具有短期记忆能力的神经网络。在RNN中，神经元不但可以接受其他神经元的信息，也可以接受自身的信息，形成具有环路的网络结构，RNN由此得名。循环神经网络已经被广泛应用在语音识别、语言翻译以及图片描述等任务上。为了处理时序数据并利用其历史信息，我们需要让网络具有短期记忆能力。而前馈网络是一种静态网络，不具备这种记忆能力。RNN基本结构如下：

2024-06-26 19:42:33 6443

原创一文概括常用图像处理算法

本文总结了11种常用的算法，包含了预处理算法以及检测算法，并介绍了一些常用的开发库。

2024-06-25 14:00:00 1997

原创传统图像特征描述及提取方法

图像的面特征是图像的重要特征之一，它把图像中较明显的局部区域信息视为特征。图像的标准差反映了图像像素灰度相对于灰度均值的离散程度，也反映了图像对比度的强弱，标准差越大，意味着图像的灰度级分布越分散，图像的对比度越大。点特征是图像中最基本的特征，它是指哪些灰度信号在二维方向上都有明显变换的点，这是一种比较简答的图像特征，也称为关键点等。2) 图像的特征向量应该是基于图像整体的,特征向量的分布必须是均匀的,而不是只集中再图像的某一局部区域;是一幅图像区别于另一幅图像最基本的特征,是其可以作为标志性的属性。

2024-06-22 08:55:34 2486

原创卷积和池化

（1）卷积对于卷积经过某层后的特征图大小计算方式：h2 = （h1-k+2p）/s + 1 w2 = （w1-k+2p）/s + 1总结：卷积输出大小=[（输入大小-卷积核大小+2*Padding）／步长]+1 所以当stride为1时,当卷积核的大小比padding的两倍大1时，可以不改变特征图的尺寸，只改变通道数。卷积的计算过程非常简单，当卷积核在输入图像上扫描时，将卷积核与输入图像中对应位置的数值逐个相乘，最后汇总求和，就得到该位置的卷积结果。不断移动卷积核，就可算出各个位置的卷积结果。

2024-06-21 20:58:26 1997

原创深度学习原理

AIGC（Artificial Intelligence Generated Content，即人工智能生成内容）是一种利用人工智能技术自动创建文本、图像、音频和视频等内容的技术。AIGC的核心是通过机器学习和深度学习算法，让计算机模型学会理解和生成人类语言，从而能够自动产生有价值的内容。这是几个关键概念的关系：生成式AI系统的设计通常基于神经网络模型，尤其是自然语言处理（NLP）领域的模型。这些模型的设计灵感往往来源于人脑的结构和功能，通过模拟神经元的连接和信息传递机制，构建复杂的网络结构。

2024-06-21 18:57:39 1498

原创单阶段目标检测--NMS

在目标检测的初始结果中，同一个物体，可能对应有多个边界框（bounding box，bb），这些边界框通常相互重叠。非极大值抑制的大体思路就像其名一样，对于多个边界框，以置信度（class score）最大的那个框为准，其他与之重合度高的框，则认为它们检测的是同一个物体，将其他框除掉，也就是抑制掉。3. 剩下的框中，同样找置信度最大的框，为第2个框，抑制掉重合的框；4. 反复执行上述步骤，直到剩下最后一个框，此亦为目标框。1. 找到置信度最大的框，该框肯定是目标，得到第1个框；

2024-06-20 09:49:18 1052

原创单阶段目标检测-iou

也就是说，这个标准用于测量真实和预测之间的相关度，相关度越高，该值越高。绿色标线是人为标记的正确结果（ground-truth），红色标线是算法预测的结果（predicted）。IoU是一个简单的测量标准，只要是在输出中得出一个预测范围(bounding boxex)的任务都可以用IoU来进行测量。由此，模型推测的结果和目标之间就会出现一个误差，而评价这个误差程度的方法就是IoU。IoU是两个区域重叠的部分除以两个区域的集合部分得出的结果，通过设定的阈值，与这个IoU计算结果比较。

2024-06-20 08:16:54 761

原创机器学习算法的应用场景

选择适合的算法取决于具体的问题、数据的特性和性能要求，通常需要根据问题的具体情况来选择和调整适合的算法。另外，个人的习惯也会影响对算法的选择。为了方便非专业的朋友阅读，我会从算法分类到主流算法举例来展开，预计20分钟的阅读，你会大概对众多繁复的机器学习算法有一个基础认识，了解当下流行的算法应用场景。NLP的应用主要包括：对话系统和聊天机器人（如GPT-3），内容推荐和个性化，自然语言理解（NLU），机器翻译，文本生成，情感分析和社交媒体监控，语音识别和处理，知识图谱和信息检索等。

2024-06-18 20:22:54 3030

原创深度学习基础

卷积过程是使用一个卷积核（如图中的Filter），在每层像素矩阵上不断按步长扫描下去，每次扫到的数值会和卷积核中对应位置的数进行相乘，然后相加求和，得到的值将会生成一个新的矩阵。卷积核相当于卷积操作中的一个过滤器，用于提取我们图像的特征，特征提取完后会得到一个特征图。卷积核的大小一般选择3x3和5x5，比较常用的是3x3，训练效果会更好。

2024-06-17 11:10:45 1654

原创讲解 Faster R_CNN原理:

可以看到 Conv2 是用不到的，和我们理解的一致（尺度太大），而特征提取是通过 L2 Norm + Scale + 1x1 Conv 得到，因为不同 Feature 之间的尺度不一致，Norm 是必须的，通过归一化和 Scale 进行特征提取后，送到 FC全连接层进行分类和回归，如上图所示。多尺度特征提取是本文的核心点，作者的方法稍微有所不同，他是以中间的 Feature 尺度为参考，前面的层通过 Max Pooling 到对应大小，后面的层则是通过反卷积（Deconv）进行放大。

2024-06-16 19:42:47 1572

原创讲解R_CNN原理

表现在VOC2007数据集上的平均精确度达到66%1、训练阶段多：步骤繁琐: 微调网络+训练SVM+训练边框回归器。2、训练耗时：占用磁盘空间大：5000张图像产生几百G的特征文件。（VOC数据集的检测结果，因为SVM的存在）3、处理速度慢: 使用GPU, VGG16模型处理一张图像需要47s。4、图片形状变化：候选区域要经过crop/warp进行固定大小，无法保证图片不变形。

2024-06-16 19:18:29 1077

原创深度学习之---迁移学习

迁移学习(Transfer Learning)是一种机器学习方法，就是把为任务 A 开发的模型作为初始点，重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务，虽然大多数机器学习算法都是为了解决单个任务而设计的，但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。迁移学习对人类来说很常见，例如，我们可能会发现学习识别苹果可能有助于识别梨，或者学习弹奏电子琴可能有助于学习钢琴。

2024-06-15 08:54:25 14337

原创深度学习网络结构之---Inception

通过堆叠两层3 × 3 3\times33×3的卷积核可以替代一层5 × 5 的卷积核，堆叠三层 3 × 3 的卷积核替代一层 7 × 7 的卷积核，可以看出，大卷积核完全可以由一系列的3 × 3 卷积核来替代，那能不能再分解得更小一点呢？从上图可以看出，计算量主要来自高维卷积核的卷积操作，因而在每一个卷积前先使用1 × 1卷积核将输入图片的feature map维度先降低，进行信息压缩，在使用3x3卷积核进行特征提取运算，相同情况下，Inception v1的计算量仅为358M。

2024-06-15 08:32:38 5775

原创 yolo模型评估指标相关概念

我们这步针对所有经过score threshold筛选出的预测框，针对一个预测框来讲，如果边界框位置大小与某个GT非常相似（检测框与GT的IoU ≥ IoU threshold），那么我们就认为这个框就是一个正确的检测结果，并将其与该GT 配对，TP即为这类检测框的数量。人工设定的IoU阈值。这也解释了为什么在计算TP时，同一个GT只对应一个正确的检测框 TP，如果允许一个GT对应多个正确的预测框，假如对于每个GT都存在大于一个的正确预测框数，那么最终得到的召回率很明显会大于1，这是不符合常理的。

2024-06-14 16:17:38 1455

原创 yolo系列的发展史

定义：YOLO（You Only Look Once）个算法的名字就很形象——你只看一次（You Only Look Once），意味着它通过一次检测过程就能处理整张图片，而不需要像以前的算法那样分步骤处理。是一种单阶段（one-stage）的目标检测算法，其核心思想是将目标检测任务视为一个回归问题，通过单个神经网络直接预测图像中的物体类别和边界框。

2024-06-14 08:50:32 8683

原创人工智能、神经网络之间的联系

人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出现在 1956 年召开的达特茅斯会议上。其中深度学习可以理解为神经网络。刚开始只有神经网络的概念，随着神经网络的层数增加，就逐渐将神经网络叫做深度学习。神经网络的发展历程大致分为浅层神经网络阶段和深度学习阶段。

2024-06-13 14:31:12 2127

原创计算机相关专业的探讨

如果你对计算机感兴趣，具备相关能力，并有明确的职业规划和个人特点，那么选择计算机相关专业将是一个明智的决策。当然，在做出选择之前，你也可以通过咨询专业人士、参加相关活动或实习等方式，进一步了解该专业的实际情况和发展前景，以确保你的选择更加明智和准确。其次，要关注行业的发展趋势和市场需求，以及自己的职业规划和发展目标，做出合理的选择。因此，在选择专业时，除了考虑自己的兴趣和能力外，还需要关注行业的发展趋势和市场需求，以及自己的职业规划和发展目标。同时，网络安全、数据隐私等问题也需要得到更多的关注和解决。

2024-06-12 16:18:35 1313

原创语义分割和目标检测的关系

分类最终体现在对每个潜在框分类的11channel上，每个channel代表一个分类，取值最大的channel作为最终分类；位置信息会用4个值来保存：被分类的物体中它的框的坐标则为左上角的x和y坐标，以及宽和高的尺寸。对于语义分割来说，它提供的信息中位置信息和分类信息是有重叠的，即通过标记每个像素的分类，同时也达到提供位置信息。目标检测的任务是对输入的图像进行物体检测，标注物体在图像上的位置，以及该位置上物体属于哪个分类。语义分割的任务是对输入的图像进行逐像素的分类，标记出像素级别的物体。

2024-06-12 09:35:03 1082 1

原创目标检测中的anchor机制

在介绍Anchor之前，我们先介绍一下传统的人脸识别算法，是怎么检测出图片中的人脸的。以下图为例，如果我们要检测图中小女孩的人脸位置，一个比较简单暴力的方法就是滑窗，我们使用不同大小、不同长宽比的候选框在整幅图像上进行穷尽式的滑窗，然后提取窗口内的特征（例如Haar、LBP、Hog 等特征），再送入分类器（SVM、Adaboost等）判断该窗口内包含的是否为人脸。这种方法简单易理解，但是这类方法受限于手动设计的特征，召回率和准确率通常不是很高。

2024-06-12 09:17:55 4045

原创 Fast R-CNN 与 R-CNN的不同之处

同理，在训练Fast R-CNN时，如果数据中全部都是正样本，那么网络就会很大概率认为候选区域是所需要检测的目标（可能这个框明明框住的是背景，但网络仍会认为这个被框住的背景是有用的，是一个前景），这时网络肯定会出问题。对于采样数据，它分为“正样本”和“负样本”。这样处理对输入特征图的尺寸没有要求了，无论怎样都可以缩放到7×7 -> 在R-CNN中，输入图像被限定为227×227，而在Fast R-CNN中，输入图像尺寸不再被限制。这64 个候选框，一部分框的是正样本，一部分框的是负样本。

2024-06-11 11:33:23 1145

原创人工智能和机器学习的区别

先来说下人工智能，人工智能（Artificial Intelligence），英文缩写为AI，通俗来讲就是用机器去做在过去只有人能做的事。人工智能最早是由图灵提出的，在1950年，计算机科学之父，人工智能科学之父，艾伦▪图灵发表了一篇论文：Computing Machinery and Intelligence（计算机器与智能），这篇文章开启了计算机与智能模拟的科学讨论。人工智能在当时只是理论设想，能够落地连图灵自己都不知道。图灵在文章的第一句就提出一个疑问："Can machines think?

2024-06-11 11:21:20 1498

原创数据库知识点和一些命令以及使用步骤

----子查询的结果只多个值，等于其中的任意一个值。（1）显示内连接：select 字段 from 表名1 inner join 表名2 on 两个表连接的条件 [where 其他查询的条件];（1）左外连接：select 字段 from 表名1 left join 表名2 on 两个表连接的条件 [where 其他查询的条件];-----子查询的结果只有一个值。库（建库，查看，修改-字符编码，删除）—>表（建表，查看，修改-表名、字段，删除）—>数据（插入、修改、删除、查询）------% _

2024-06-10 20:09:44 878

原创典型语义分割算法

目录一、 FCN全卷积网络二、 SegNet三、U-Net 四、DeepLab V1五、 DeepLab V2六、 DeepLab V3七、Mask R-CNN八、PSPNet九、 RefineNet一、 FCN全卷积网络全卷积网络FCN在会议CVPR 2015的论文中提出.它将CNN分类网络（AlexNet, VGG 和 GoogLeNet）修改为全卷积网络，通过对分割任务进行微调，将它们学习的表征转移到网络中

2024-06-10 19:08:53 1858

原创语义分割常见应用

典型的「卷积」运算将采用滤波器视图中当前值的点积并为相应的输出位置产生单个值，而「转置卷积」基本是相反的过程：我们从低分辨率特征图中获取单个值，并将滤波器中的所有权重乘以该值，将这些加权值投影到输出要素图中。对于深度卷积网络，浅层主要学习低级的信息，随着网络越深，学习到更高级的特征映射。图像分割领域现在较为流行的是编码器解码器结构，其中我们对输入的空间分辨率进行下采样，生成分辨率较低的特征映射，它能高效地进行分类，而后使用上采样将特征还原为全分辨率分割图。分割网络的评价指标：mAcc。

2024-06-08 08:19:37 1834

原创了解语义分割

下图展示了图像分类、语义分割、目标检测、实例分割四种任务（图片来自【1】）：上图展示了四种任务的研究目标，具体如下：图像分类：判别图中物体是什么，比如是猫还是狗；语义分割：对图像进行像素级分类，预测每个像素属于的类别，不区分个体；目标检测：寻找图像中的物体并进行定位；实例分割：定位图中每个物体，并进行像素级标注，区分不同个体；

2024-06-07 19:38:12 894

原创 YOLOv5中 FOCUS模块

Focus层原理和PassThrough层很类似。它采用切片操作把高分辨率的图片（特征图）拆分成多个低分辨率的图片/特征图，即隔列采样+拼接。原理图如下：原始的640 × 640 × 3的图像输入Focus结构，采用切片（slice）操作，先变成320 × 320 × 12的特征图，拼接（Concat）后，再经过一次卷积（CBL(后期改为SiLU，即为CBS)）操作，最终变成320 × 320 × 64的特征图。

2024-06-07 11:08:22 1748

原创 yolov5网络结构

gain = torch.ones(7, device=targets.device)，gain是输出的channel数，包含image，class，x，y，w，h，conf。我们知道目标检测难点一直是对小目标的检测定位，主要原因是，第一，coco数据集中大中小目标占比不均衡，小目标的数量很多，但出现的频率却很低，这导致bp时对小目标的优化不足。作者提出Mosaic，随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。

2024-06-06 19:14:09 1474

原创前二十名图灵奖获得者

1.艾伦·佩利(Alan J.Perlis 1922年4月1日-1990年2月77日)，美国计算机程序设计领域科学家。ALGOL语言和计算机科学的“催生者”，由于在ALGOL语言的定义和扩充上所作出的重大贡献，以及在创始计算机科学教育使计算机科学成为一门独立的学科上所发挥的巨大作用，1966年成为首届图灵奖获得者，2。

2024-06-06 07:56:59 7255

原创常用的专业术语及程序员必学英语词汇（持续更新）

n. 圆,(某种圆形)交谊舞,常规活动,一局(轮) adj. 圆的,微胖的,完整的,坦率的,圆满完成的 adv. 环形地 vt. 弄圆,绕行,使...完全,使成为整数 vi. 变圆(胖),弯曲 prp. 围绕,遍及。vt.& vi.阅读，朗读；n. 水平,等级,标准,层次 adj. 平坦的,齐平的,稳定的,合理的,满满的 vt. 压平,使同等,瞄准,夷为平地,推翻, 指责 vi. 趋向平稳, 瞄准, 诚恳待人, 使平等。adj.快的，急速的；vt.& vi.（使）下决心，（使）做出决定 vt.决定，确定；

2024-06-05 16:52:20 1436

空空如也

空空如也