Big Cabbage-优快云博客

原创 YOLOX算法及其改进

YOLOX的具体改进如下：1、输入端：使用了Mosaic、Mixup、RandomHorizontalFlip以及ColorJitter；2、Backbone：在DarkNet53的基础上添加了SPP模块；3、Neck：是FPN+PAN的结构；4、Head：使用了Decoupled Head、Multi Positives、IoU-Aware分支以及SimOTA；5、训练策略：使用了余弦学习率策略、EMA。

2024-12-28 15:39:06 1202 1

原创 yolov8算法及其改进

Ultralytics YOLOv8 是由 Ultralytics公司开发的一个前沿的 SOTA 模型。它在以前成功的 YOLO 版本基础上，引入了新的功能和改进，进一步提升了其性能和灵活性。YOLOv8 基于快速、准确和易于使用的设计理念，使其成为广泛的目标检测、图像分割和图像分类任务的绝佳选择。YOLOv8的改进总结如下：提出了具有残差模块的层聚合网络（ELAN-Bottleneck，C2f）更轻量化的Neck（PAN-C2f）

2024-12-28 14:55:28 763

原创 yolov7算法及其改进

提出了扩展高效的层聚合网络（E-ELAN）基于级联的模型缩放方法基于MP的降维组件卷积重参化YOLOR中的隐式知识结合卷积特征映射和乘法方式无辅助头：同YOLOv5有辅助头：辅助头匹配进行正样本的扩充。

2024-12-28 14:41:23 1005

原创 yolov6算法及其改进

网络架构设计：对于Backbone和Neck，延续了YOLOv4和YOLOv5的PAN架构思想并使用了重参思想进行了改进；关于Head部分，作者Decoupled Head进行了简化并将其命名为Efficient Decouple Head；标签匹配：对TaskAlign、SimOTA、ObjectBox以及ATSS等进行了评估，最终确认TaskAlign更为有效且训练友好；损失函数：损失函数一般包含cls loss、box-regression loss以及object loss。

2024-12-28 11:10:12 1368

原创 yolov5及其算法改进

YOLOv5 是一个基于 Anchor 的单阶段目标检测，其主要分为以下 5 个阶段：1、输入端：Mosaic 数据增强、自适应Anchor计算、自适应图像缩放；2、Backbone：提取出高中低层的特征，使用了 CSP 结构、SPPF、SiLU 等操作；3、Neck：使用 FPN+PAN 结构，将各层次的特征进行融合，并提取出大中小的特征图；4、Head：进行最终检测部分，在特征图上应用 Anchor Box，并生成带有类别概率、类别得分以及目标框的最终输出向量；

2024-12-27 22:39:54 1687

原创 yolov4算法及其改进

输入端改进：Mosaic数据增加主干网络：CSPDarkNet53损失函数：CIOU激活函数：Mish激活函数样本匹配：增加了匹配样本的数量。

2024-12-26 22:55:05 1096

原创 yolov3算法及其改进

YOLOV3的实时性和精确性在当时比较好，广泛应用于工业界YOLOV3在backbone网络结构上应用残差连接思想来解决深度网络的梯度消失问题YOLOV3最显著的改进就是在三个尺度上以相同的方式来进行目标检测，这使得科技检测到不同规模的目标YOLOV3损失函数是将之前的softmax改为logit在最后推理阶段YOLOV3对3个检测层的预测结果进行非最大抑制（NMS）来确定最终的检测结果。

2024-12-25 22:24:03 876

原创 K均值算法

除了初始聚类中心的选择，K-means++ 其余部分与 K-means 算法的流程一致。如上图所示，使用欧式距离的平方作为样本距离：先计算向量对应元素的差值，然后取平方，最后求和；K均值聚类使用欧氏距离的平方表示样本之间的距离或相似度。样本距离越小，样本的相似性越大。步骤2：计算 X 中的每个样本点x_i和已有聚类中心的最近样本距离d(x_i)计算样本特征向量 x_i 和每个聚类中心 c_j 的距离，计算公式如下：.这里的样本距离选择的是欧氏距离的平方，和 K-means 算法保持一致。

2024-12-18 21:57:16 842

原创随机森林算法原理

随机森林的两个随机性有利于增大个体学习器之间的差异，增强模型的泛化性能。由于随机森林的决策树是从一个特征子集中进行特征选择，所以训练效率要优于 Bagging。相比 Boosting 类算法，随机森林实现简单，决策树之间相互独立，可以并行训练。由于存在特征子集的随机选择，随机森林可以处理特征维度较高和部分特征缺失的情况。随机森林可以评估特征的重要性（本章的项目实战中会有相应的练习代码）。

2024-12-18 21:23:38 488

原创决策树的生成与剪枝

内部结点代表样本的特征，叶子结点代表样本的预测类别，我们将叶子节点中训练样本占比最大的类作为决策树的预测标记。决策树的叶子结点个数表示模型的复杂度，通过最小化上面的损失函数，一方面可以减少模型在训练样本上的预测误差，另一方面可以控制模型的复杂度，保证模型的泛化能力。决策树的叶子节点越多，模型越复杂。使用信息增益在 A 中进行特征选择，若所选特征 A_i 的信息增益小于设定的阈值，则 T 为单结点树，返回 D 中数量最多的类别。若 A 中的特征为空，则 T 为单结点树，返回 D 中数量最多的类别。

2024-12-18 21:08:37 1011

原创决策树模型与特征选择

从定义上我们很容易得知：特征 X 的信息增益 = Y 的信息熵 - Y 的条件熵，当信息熵和条件熵中的概率由数据估计（如极大似然估计）得到时，所对应的信息熵与条件熵分别称为经验熵和经验条件熵。我们事先并不知道使用哪些特征去判断是否同意申请人的贷款，但是观察训练数据可知，若根据某些特征筛选得到的样本集合是属于同一类别的，则可以形成一条特征到类别的决策规则，如：有房同意贷款，没房没工作不同意贷款，没房有工作同意贷款。我们希望这个概率分布是某一类占多数，或者都是同一类别的，这样的特征具有较强的分类能力。

2024-12-18 20:33:37 656

原创朴素贝叶斯分类器

第二行公式是样本类别确定的条件下样本各个特征取值的概率分布，比如类别取值为0时，特征x_1取值的概率分布：P(X_1=2|Y=0)=0.4，P(X_1=6|Y=0)=0.6。若P(X)表示事件X发生的概率；公式中的分母部分是全概率表达式，分子中的P(Y)称为类别Y的先验概率，P(X|Y)称为类别Y确定后的条件概率，贝叶斯公式计算的P(Y|X)称为后验概率。图中随机变量X的取值为{1,2}，随机变量Y的取值为{0,1}，中心区域是X和Y的联合概率，边缘部分是X和Y的边缘概率，都满足概率之和为1。

2024-12-18 16:24:37 639

原创特征工程与CTR预估

特征分箱之后，我们可以对变量做进一步的OneHot编码处理，例如有一个表示职业类型的特征x，共有 4 个取值：医生、老师、学生、警察，将其 OneHot 编码之后，特征x从1维升高至4维：特征 x 的每一个取值都可以用一个4维向量来表示，该向量的元素非零即一，我们把它叫做OneHot特征向量：向量中只有一个元素取值为 1，其余元素的取值均为 0，x 的取值通常是OneHot特征向量的非零特征索引。

2024-12-18 15:31:03 955

原创 Logistic 回归算法原理

二是电商场景下的样本类别不平衡问题会导致正样本的召回率偏低，毕竟用户的不点击行为是占多数的，而 KNN 是使用多数表决的分类规则。其中m是样本个数，P(yi|xi)是在给定样本特征xi的条件下，模型将样本i预测为真实标记值yi的概率，将每个样本预测正确的概率连乘起来就得到了似然函数（这句话很重要）。两个等式右边的表达式就不用解释了，等式左边是条件概率的表示方法，简单来说就是：给定样本特征 xi 的条件下，样本标记 yi 取值为 1 或 0 的概率。所以，对数损失函数值越小，模型在该样本上的表现就越好。

2024-12-18 13:49:25 840

原创模型评估与模型选择

公式中的λ用来调节经验风险和正则化项之间的关系，第一个公式中的正则项是参数向量的 2 范数平方后再乘以1/2，这么设计是为了求梯度后形式的简洁，方便写梯度下降的代码。上面介绍的准确率、精确率、召回率、F1值等评价指标，主要是看模型在测试集上的表现，因为测试集不参与模型的训练，可以用来估计模型的泛化性能。实际上我们是根据 D1 上训练出的模型的泛化性能来估计 D 上训练出的模型的泛化性能，所以训练集和验证集的划分也比较重要，一般是将大约2/3~4/5的样本用于训练，剩余的样本用于模型评估。

2024-12-18 10:23:22 1016

原创线性回归算法原理

上面的公式无法表示不同样本的预测输出，而且形式也不够简洁，所以我们需要换个更加规范和统一的表达方式。首先约定一些符号的表示含义：一定要仔细看一下上图中符号的细节和含义哦，确保自己再看到这些符号时能够回想起它们的含义，即便一时不理解，再看到它们时也要能够找到这幅图~认识了这些符号的含义之后，我们来看一下参数向量w和特征向量xi的表现形式：图中的 w 和 xi 既可以看作列向量也可以看作列矩阵。

2024-12-17 22:39:35 669

原创 K近邻原理和距离

回归问题中预测的 y 值是一个连续值，上图中每个样本点周围的数字代表其 y 值，K近邻是将离 X 最近的 K个样本的 y 值的平均值作为 X 的预测 y 值。例如我们有一个特征维数为 2、样本数量为 3 的训练集：data = {[1,2,0],[3,1,0],[2,3,1]}，则其中的样本分别为 [1,2,0]、[3,1,0]、[2,3,1]，样本特征分别为 [1,2]、[3,1]、[2,3]，样本类别分别为 0、0、1。K 近邻中的 K 值是人为设定的参数， K 值的选取会对预测结果产生影响。

2024-12-17 21:28:10 958

原创利用线性回归预测波士顿房价

【代码】利用线性回归预测波士顿房价。

2024-12-17 20:54:51 132

原创机器学习基本概念

这就属于一个监督学习的问题，假如没有标记值 y ，是无法学习到模型参数 k 和 b 的。过拟合的反面是欠拟合，也就是模型对训练数据的拟合程度不够，导致在训练数据上的误差较大，这种情况下模型在测试数据上的表现一般也不好。分类问题中预测的 y 值是离散值，一般取值的个数是有限的，比如性别、职业、省份等；回归问题中预测的 y 值是连续值，一般取值的个数是无限的，比如身高、体重、收入等。数据拟合：模型的预测输出值是不断地拟合与逼近真实的 y 值的。好的拟合曲线是可以反映大部分数据点的规律，有一定的泛化能力；

2024-12-17 20:37:01 629

原创 C语言排序

【代码】C语言排序。

2024-11-25 16:20:49 127 1

原创 Linux-线程

Linux-线程一、线程二、线程创建三、线程回收四、线程结束五、线程中的通讯一、线程二、线程创建三、线程回收四、线程结束五、线程中的通讯

2024-04-03 10:50:49 129 1

原创 linux-进程

linux进程

2024-04-02 16:59:52 259 1

原创 Linux下标准I/O和文件I/O

Linux系统编程-文件IO、标准库IO、刷新、缓冲模式

2024-03-28 14:34:26 389

原创数据结构-快速排序

【代码】数据结构-快速排序。

2024-03-24 16:11:49 134 1

原创数据结构-hash

hash

2024-03-24 16:02:27 255 1

原创数据结构-二叉树

二叉树

2024-03-24 15:42:12 812 1

原创数据结构-球钟问题

当放入五个球时，在分钟指示器的4个球就会按照他们按放入的相反顺序加入球队列的对位，而第五个球就会进入五分钟指示器。他有三个可以容纳的若干球的指示器：分钟指示器，五分种指示器，小时指示器。若分钟指示器中有2个球，五分钟指示器中有六个球，小时指示器中有5个球。当小时指示器放入第12个球时，原来的11个球按照他们被放入时的相反顺序加入到队列的队尾，然后第12个球也会回到队尾。现设初始时球队列球数位27，球钟的三个指示器初始状态为空，问要经过多久，球队列才能回到原来的顺序。

2024-03-24 14:58:54 300 1