Llllyyyyy......-优快云博客

原创大数据应用开发和项目实战

Matplotlib 是 Python 的绘图库，它能让使用者很轻松地将数据图形化，并且提供多样化的输出格式。Matplotlib 可以用来绘制各种静态，动态，交互式的图表。比如说散点图、柱状图等等。plot()中的 marker 参数：定义一些不一样的标记。fmt 参数定义了基本格式，如标记、线条样式和颜色。subplot()：用于绘制多个子图，在绘图时需要指定位置。scatter()：绘制散点图。bar()：绘制柱形图。plot() ：用于画图，它可以绘制点和线，语法。

2025-04-28 16:30:30 272

原创 Spark-Core编程

功能的角度Map 算子主要目的将数据源中的数据进行转换和改变。所以在内存有限的情况下，不推荐使用。reduceByKey 和 groupByKey 的区别：从 shuffle 的角度：reduceByKey 和 groupByKey 都存在 shuffle 的操作，但是 reduceByKey可以在 shuffle 前对分区内相同 key 的数据进行预聚合（combine）功能，这样会减少落盘的数据量，而 groupByKey 只是进行分组，不存在数据量减少的问题，reduceByKey 性能比较高。

2025-04-10 09:52:56 471

原创 spark概念运行架构

核心概念Executor 与 CoreSpark Executor 是集群中运行在工作节点（Worker）中的一个 JVM 进程，是整个集群中的专门用于计算的节点。ExecutorSpark Executor 是集群中工作节点（Worker）中的一个 JVM 进程，负责在 Spark 作业中运行具体任务（Task），任务彼此之间相互独立。RDD 之间的依赖关系RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系。

2025-04-09 15:58:00 329

原创 Scala集合

过滤遍历一个集合并从中获取满足指定条件的元素组成一个新的集合转化/映射（map）将集合中的每一个元素映射到某一个函数扁平化扁平化+映射注：flatMap 相当于先进行 map 操作，在进行 flatten 操作集合中的每个元素的子元素映射到某个函数并返回新集合分组(group)按照指定的规则对集合的元素进行分组简化（归约）折叠。对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包不可变集合：scala.collection.immutable 可变集合。

2025-04-03 09:33:02 395

原创 Scala函数面向对象

抽象属性和抽象方法基本语法定义抽象类：abstract class Person{} //通过 abstract 关键字标记抽象类定义抽象属性：val|var name:String //一个属性没有初始化，就是抽象属性定义抽象方法：def hello():String //只声明而没有实现的方法，就是抽象方法。包对象在 Scala 中可以为每个包定义一个同名的包对象，定义在包对象中的成员，作为其对应包下所有 class 和 object 的共享变量，可以被直接访问。

2025-04-02 16:02:34 323

原创 Scala函数函数式编程

基本语法案例：定义一个函数，实现将传入的名称打印出来。方法1可以进行重载和重写Scala 中函数可以嵌套定义object TestFunction {// 2方法可以进行重载和重写，程序可以执行def main(): Unit = {}def main(args: Array[String]): Unit = {//1）Scala 语言可以在任何的语法结构中声明任何的语法import java.util.Date new Date()// 2)函数没有重载和重写的概念，方法可以进行重载和重写。

2025-04-01 10:16:01 390

原创 Scala循环守卫

for (i <- 1 to 10 by 2) { println("i=" + i)}说明：by 表示步长案例实操需求：输出 1 到 10 以内的所有奇数for (i <- 1 to 10 by 2) { println("i=" + i)}输出结果i=1 i=3 i=5 i=7i=9。= 3) { println(i +"张三丰")}循环守卫，即循环保护式(也称条件判断式，守卫)。

2025-03-31 18:00:40 330

原创 Scala编程语言

数据类型可以分为两大类： 1. 值类型（Value Types）：对应 Java 的原始类型（Primitives），但在 Scala 中所有类型都是对象（得益于统一类型系统）。Long64位有符号整数 -2⁶³到 2⁶³-1（后缀 L） Float32位单精度浮点数 3.14f（后缀 f 或 F） Double64位双精度浮点数 3.14（默认浮点类型）2. 引用类型（Reference Types）：包括类、特质（Traits）、集合、函数等。Byte8位有符号整数 -128`到 127。

2025-03-28 11:49:03 240

原创 Scala编程语言

区分大小写-Scala是大小写敏感的，这意味着标识Hello 和 hello在Scala中会有不同的含义。如果需要使用几个单词来构成一个类的名称，每个单词的第一个字母要大写。Scala 是一门多范式（multi-paradigm）的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 源代码被编译成 Java 字节码，所以它可以运行于 JVM 之上，并可以调用现有的 Java 类库。无缝调用: Scala 可以直接调用 Java 代码，并且可以在 Java 中调用 Scala 代码。

2025-03-27 09:19:39 292

原创图像识别技术与应用语义分割

U-net++Deep Supervision ：也是很常见的事，多输出损失由多个位置计算，再更新现在来看，很多视觉任务都可以套用这招。U-net++@ 可以更容易剪枝：M 因为前面也单独有监督训练M 可以根据速度要求来快速完成剪枝M 训练的时候同样会用到L4 ，效果还不错。语义分割U-netM 整体结构：M 概述就是编码解码过程简单但是很实用，应用广，起初是做医学方向，现在也是。

2025-03-21 08:51:03 259

原创图像识别技术与应用图像分割

图像分割的应用场景人像抠图，医学组织提取，遥感图像分析，自动驾驶，材料图像等。图像分割的数据集 Cityscape数据集：30个类别。COCO数据集：以场景理解为目标，特别选取比较复杂的日常场景。图像分割网络的两个模块卷积模块：提取特征。实例分割：只预测前景目标的类别属性以及边框，个体ID，每一个像素可以属于多个ID。图像分割：预测目标的轮廓。将不同的像素划分到不同的类别，非常细粒度的分类。全景分割：每个像素点分配一个语义类别和一个唯一的实例ID。卷积网络：编码器· 反卷积网络：解码器。

2025-03-20 09:23:25 356

原创图片识别技术与应用 YOLO系列V4

v4系列只增加训练成本，但是能显著提高精度，并不影响推理速度数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转网络正则化的方法： Dropout、 Dropblock等。Random Erase：用随机值或训练集的平均像素值替换图像的区域 Hide and Seek：根据概率设置随机隐藏一些补丁。损失函数必须考虑三个几何因素：重叠面积，中心点距离，长宽比。

2025-03-14 10:06:06 274

原创图片识别技术与应用 YOLO系列

没有池化和全连接层，全部卷积下采样通过stride为2实现3种scale，更多先验框基本上当下经典做法全融入了。物体检测任务中可能一个物体有多个标签logistic激活函数来完成，这样就能预测每一个类别是/不是。·多scale为了能检测到不同大小的物体，设计了3个scale。·scale变换经典方法残差连接-为了更好的特征。softmax层替代。

2025-03-13 10:06:55 236

原创图像识别技术与应用 YOLO系列

YOLO-V2-Batch Normalization网络的每一层的输入都做了归一化，收敛相对更容易。感受野：概述来说就是特征图上的点能看到原始图像多大区域。问题1：每个Cell只预测一个类别，如果重叠无法解决。问题2：小物体检测效果一般，长宽比可选的但单一。·NMS(非极大值抑制)·YOLO-V1网络架构。

2025-03-12 16:04:15 220

原创图片识别项目检测

目标检测的数据集· VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。COCO数据集：起源于微软2014年出资标注的MS COCO数据库。目标检测的深度学习方法anchor boxanchor-base和anchor-free。多任务：位置 + 类别目标种类与数量繁多的问题目标尺度不均的问题遮挡、噪声等外部环境干扰。目标检测识别图片中有哪些物体并且找到物体的存在位置。类别+真实边界框坐标(x,y,w,h)

2025-03-11 10:26:20 324

原创模型的导入定义集成

in_channels`初始化为3，表示输入图像的通道数（RGB图像）遍历配置列表`cfg` - 如果遇到`'M'`，则添加一个最大池化层（`nn.MaxPool2d`）。2. **数据准备**：**数据增强和预处理** -transform_train`：用于训练数据的转换，包括随机裁剪（`RandomCrop`）、随机水平翻转（`RandomHorizontalFlip`）、转换为张量（`ToTensor`）和归一化（`Normalize`）。注意`'deen'`应为`'deer'`。

2025-03-10 17:04:37 447

原创手动数字识别项目训练模型

在测试时添加model.eval()。其中model.train()是保证BN层用每一批数据的均值和方差，而model.eval()是保证BN用全部训练数据的均值和方差;而对于 Dropout, model.train()是随机取一部分网络连接来训练更新参数，而model.eval()是利用到了所有网络连接。定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数，如回归使用的losss_fun=nn.MSELoss()，分类使用的mn.BCELoss等损失函数，更多内容可参考本书5.2.4节。

2025-03-06 08:58:22 352

原创机器学习集成算法

4. 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。根据个体学习器的生成方式，目前的集成学习方法大致可以分为两类：①Bagging：个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表为随机森林。随机森林优势：①它能够处理很高维度（feature很多）的数据，并且不用做特征选择②在训练完后，它能够给出哪些feature比较重要③容易做成并行化方法，速度比较快④可以进行可视化展示，便于分析。森林：很多个决策树并行放在一起。

2025-03-05 15:58:14 358

原创测试模型计算个数采用全局平均池化钩子函数

5. **`images, labels = images.to(device), labels.to(device)`**：将数据移动到指定的设备（如 GPU 或 CPU）。5. **`images, labels = images.to(device), labels.to(device)`**：将数据移动到指定的设备（如 GPU 或 CPU）。9. **`correct += (predicted == labels).sum().item()`**：累加正确预测的样本数。

2025-03-04 11:35:34 847

原创图像识别技术与应用图像分类

该数据集就像CIFAR-10一样，除了它有100个类，每个类别包含600张图像。每班有500张培训图像和100张测试图像。CIFAR-100中的100个类分为20个超类。每个图像都带有一个“细”标签（其所属的类）和一个“粗”标签（其所属的超类）。模型基本概念-网络的深度深度学习最重要的属性，计算最长路径的卷积层+全连接层数量。CIFAR-10数据集由10类中的60000 32x32颜色图像组成，每个类别有6000张图像。模型基本概念-网络的宽度每一个网络层的通道数，以卷积网络层计算。

2025-03-03 16:11:26 203

原创图像识别技术与应用-图像分类

模型基本概念-网络的深度深度学习最重要的属性，计算最长路径的卷积层+全连接层数量。可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。准确率(Precision)：又称为查准率，表示在模型识别为正类的样本中，真正为正类的样本所占的比例。召回率(Recall)：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。·对正负样本不均衡敏感。图像分类 :将不同的图像，划分到不同的类别标签，实现最小的分类误差。

2025-02-28 09:53:57 317

原创 Python数据处理工具箱

from torch.utils.tensorboard import SummaryWriter#实例化SummaryWriter，并指明日志存放路径。2 调用相应的API接口，接口一般格式为：add_xxx(tag-name, object, iteration-number)#即add_xxx(标签，记录的对象，迭代次数)其中，xxx指的是各种可视化方法。cd到logs目录所在的同级目录，在命令行输入如下命令，logdir等式右边可以是相对路径或绝对路径。用TensorBoard可视化神经网络。

2025-02-27 10:10:41 346

原创 Pytorch数据处理工具箱

DataLoader：可以批量处理。getitem_一次只能获取一个样本。Pytorch数据处理工具箱。

2025-02-26 17:16:16 231

原创图片识别技术与应用pytorch

nn.Xxx继承于nn.Module，nn.Xxx 需要先实例化并传入参数，然后以函数调用的方式调用实例化的对象并传入输入数据。它能够很好的与nn.Sequential结合使用，而nn.functional.xxx无法与nn.Sequential结合使用。dropout操作在训练和测试阶段是有区别的，使用nn.Xxx方式定义dropout，在调用model.eval()之后，自动实现状态的转换，而使用nn.functional.xxx却无此功能。1.使用nn.Sequential模型容器。

2025-02-25 13:21:46 375

原创图像识别技术与应用-Pytorch神经网络工具箱

nn.Xxx继承于nn.Module，nn.Xxx 需要先实例化并传入参数，然后以函数调用的方式调用实例化的对象并传入输入数据。它能够很好的与nn.Sequential结合使用，而nn.functional.xxx无法与nn.Sequential结合使用。dropout操作在训练和测试阶段是有区别的，使用nn.Xxx方式定义dropout，在调用model.eval()之后，自动实现状态的转换，而使用nn.functional.xxx却无此功能。继承nn.Module基类并应用模型容器构建模型。

2025-02-24 16:07:10 305

原创图像识别技术与应用–LeNet架构 AlexNet架构 VGG架构

LeNet架构总体来看，LeNet（LeNet-5）由两个部分组成：• 卷积编码器：由两个卷积层组成；• 全连接层密集块：由三个全连接层组成；每个卷积层使⽤5×5卷积核和一个sigmoid激活函数。学习表征浅层学习：不涉及特征学习，其特征主要靠人工经验或特征转换方法来抽取。表示学习：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习。通常需要从底层特征开始，经过多步非线性转换才

2025-02-21 09:34:55 424

原创图像识别技术与应用–卷积神经网络

填充和步幅可以改变输出的高度和宽度填充在输入周围添加额外的行/列，增加输出的高度和宽度步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状填充和步幅可用于有效地调整数据的维度。不管检测对象出现在图像中的哪个位置，神经网络的前面几层都应该对相同的图像区域具有相似的反应。神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远的区域的关系。卷积层将输入和卷积核进行交叉相关，加上偏移后得到输出。每个通道都有一个卷积核，结果是所有通道卷积结果的和。填充:在输入周围添加格外的行/列。

2025-02-20 09:45:56 226

原创图像识别技术与应用–感知机

（3）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。激活函数：刚才登场的h（x）函数会将输入信号的总和转换为输出信号，这种函数一般称为激活函数（activation function）。参数更新前向传播（正向传播）输入样本－－输入层－－各隐藏层－－输出层反向传播（误差反传）输出层——各隐藏层——输入层计算神经网络参数梯度的方法修正各层单元的权值。阶跃函数以0为界，一旦输入超过0，就切换输出1，否则输出0可以说感知机使用了阶跃函数作为激活函数。

2025-02-19 17:05:43 285

原创图像识别技术与应用––机器学习线性回归 softmax回归

梯度指示的反向是各点处的函数值减小最多的方向,所以无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。但沿着它的方向能最大限度的减小函数的值。流程：在梯度法中，函数的取值从当前位置沿着梯度方向前进一定的距离，然后在新的方向重新求梯度，再沿着新梯度的方向前进复沿进。学习预测不相互排斥的类别的问题称为多标签分类（multi-label classification）一个样本（一个图片或者一个候选框）中含有多个物体，标注的label也是多个的，多个类间并不是互斥的，多选多比如：多目标检测、短视频分类。

2025-02-18 11:22:30 904

原创图像识别技术与应用––机器学习

人工智能学科：人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学日常生活中的人工智能有指纹、人脸识别解锁、人脸支付、商品推荐、智能物流、仓储机器人。设计一个灵活的程序算法，其输出由许多参数决定，然后使用数据集来确定当下的“最佳参数集”，这些参数通过某种性能度量方式来达到完成任务的最佳性能。在机器学习中，我们需要定义模型的优劣程度的度量，这个度量在大多数情况是“可优化”的，这被称之为目标函数。仅仅拥有海量的数据是不够的，还需要正确的数据。

2025-02-17 17:32:55 375

2501_90677973的博客

原创大数据应用开发和项目实战

原创 Spark-Core编程

原创 spark概念运行架构

原创 Scala集合

原创 Scala函数面向对象

原创 Scala函数函数式编程

原创 Scala循环守卫

原创 Scala编程语言

原创 Scala编程语言

原创图像识别技术与应用语义分割

原创图像识别技术与应用图像分割

原创图片识别技术与应用 YOLO系列V4

原创图片识别技术与应用 YOLO系列

原创图像识别技术与应用 YOLO系列

原创图片识别项目检测

原创模型的导入定义集成

原创手动数字识别项目训练模型

原创机器学习集成算法

原创测试模型计算个数采用全局平均池化钩子函数

原创图像识别技术与应用图像分类

原创图像识别技术与应用-图像分类

原创 Python数据处理工具箱

原创 Pytorch数据处理工具箱

原创图片识别技术与应用pytorch

原创图像识别技术与应用-Pytorch神经网络工具箱

原创图像识别技术与应用–LeNet架构 AlexNet架构 VGG架构

原创图像识别技术与应用–卷积神经网络

原创图像识别技术与应用–感知机

原创图像识别技术与应用––机器学习线性回归 softmax回归

原创图像识别技术与应用––机器学习

空空如也

空空如也