神奇的黄豆-优快云博客

原创 Spark-core编程总结

会为每个任务分别发送该变量，但在多个并行操作中可以共享同一个广播变量，从而提高效率。：分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合。广播变量适用于在多个任务之间共享大对象，以减少数据传输开销，提高计算效率。累加器适用于在分布式计算过程中聚合数据，如统计和、最大值、最小值等。：将数据保存到不同格式的文件中，包括文本文件、对象文件和序列文件。中的所有元素，先聚合分区内数据，再聚合分区间数据。中的每一个元素，调用指定函数。的形式返回数据集的所有元素。中的前两个元素组成的数组。

2025-04-11 15:22:38 410

原创 spark-core学习内容总结

适用于需要筛选数据的场景，筛选后分区不变，但分区内数据可能不均衡，需注意数据倾斜问题。：适用于需要将每个输入元素映射为一个集合，并将这些集合合并为一个大数据集的场景。：适用于需要以分区为单位处理数据的场景，如分区级别的数据聚合。：将处理的数据逐条进行映射转换，可以是类型的转换或值的转换。：以分区为单位处理数据，可以对数据进行任意处理，包括过滤。：将数据根据指定的规则进行分组，数据会被打乱重新组合，涉及。：适用于需要分区索引的场景，如分区特定的数据处理逻辑。将每个输入元素映射为一个集合，并将这些集合合并。

2025-04-10 14:18:26 711

原创 spark学习内容总结

Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上，按照指定的计算模型进行数据计算。它是一个抽象类，代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。‌：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑。‌：计算数据时，可以根据计算节点的状态选择不同的节点位置进行计算。‌：Spark 在计算时，使用分区函数对每一个分区进行计算。

2025-04-09 17:29:49 501

原创集合计算高级函数

Fold 折叠：化简的一种特殊情况。按照指定的规则对集合的元素进行分组。复杂wordcount实验案例。

2025-04-08 10:32:11 713

原创集合学习内容总结

1、Scala 的集合有三大类：序列 Seq、集Set、映射 Map，所有的集合都扩展自 Iterable特质。2、对于几乎所有的集合类，Scala 都同时提供了可变和不可变的版本，分别位于以下两个包不可变集合：scala.collection.immutable可变集合： scala.collection.mutable3、Scala 不可变集合，就是指该集合对象不可修改，每次修改就会返回一个新对象，而不会对原对象进行修改。类似于 java 中的 String。

2025-04-07 18:00:03 752

原创 Scala 面向对象编程总结

‌type 关键字‌：使用type关键字可以定义新的数据类型名称，本质上就是类型的一个别名。

2025-04-03 11:30:17 347

原创面向对象编程

命名规则只能包含数字、字母、下划线、小圆点.，但不能用数字开头，也不要使用关键字。案例实操命名规范一般是小写字母+小圆点案例实操。

2025-04-02 17:30:24 445

原创函数式编程总结

高阶函数是指可以接受函数作为参数，或者返回一个函数的函数。函数柯里化是指将一个多参数的函数转换成多个单参数函数的过程。闭包是指一个函数以及它所捕获的外部变量的组合。惰性加载是指延迟计算表达式的值，直到该值首次被使用时才进行计算。

2025-04-01 11:14:26 370

原创 Scala学习内容总结

Scala中没有Switch，使用模式匹配处理。‌：将一个循环放在另一个循环体内，形成嵌套循环。‌：所有数据类型的子类，用于无正常返回值的方法。‌：使用转换函数将高精度类型转换为低精度类型。在Scala中，所有运算符都是方法，可以省略。格式化输出，字符串模板（插值字符串）通过。‌：表示无值，类似于Java中的void。‌：低精度类型自动转换为高精度类型。‌：修饰不可变变量（常量）‌：编译器自动推导变量类型。‌：只有一个实例值null。等方法获取用户输入。‌：Scala中使用。

2025-03-31 17:45:55 307

原创 Scala 基础语法总结

val与varval i = 1 // 不可变var s = "hello" // 可变val str: String = "world" // 显式指定类型类似Java的final。推荐使用，因函数式编程提倡不可变性。var：可变变量，应谨慎使用。2. 操作符操作符即方法。

2025-03-28 11:18:54 305

原创 scala学习总结

其简洁语法与强大扩展性，为开发高性能、可维护的系统提供理想解决方案。：高阶函数、不可变数据、模式匹配、闭包，提升代码简洁性与并发安全性。：类的实例（如狗的属性：颜色、名字；动态表达能力（如隐式转换）提升编码灵活性。特性，专为高扩展性软件开发设计。：支持复杂类型操作，增强代码灵活性。开头（保留给编译器生成的标识符）。对象、继承、多态、抽象类与特质（在大数据领域冗长代码的不足。运行：右键执行或命令行编译。下划线结尾（可能引发冲突）。空行或仅含注释的行会被忽略。平台特性（如动态类加载）。：线程安全数据结构支持。

2025-03-27 10:33:24 372

原创 U-net系列算法

不同的max pool整合低阶特征（X1和X2 ，轮廓之类的）上采样整合高阶特征（感受野大的，全局的）5*64 =320，最终组合得到全部特征。各层统一用卷积得到64个特征图。

2025-03-21 11:14:05 223

原创图像分割项目

矩阵乘法: 卷积操作可以用矩阵乘法表示，输入图像拉平成一维向量，通过矩阵乘法计算输出特征图。卷积操作: 通过卷积核在图像上进行滑动窗口操作，逐点相乘并求和，生成特征图。反卷积操作: 通过转置矩阵实现，将卷积后的特征图上采样，恢复到原始图像尺寸。：只预测前景目标的类别属性以及边框，个体ID，每一个像素可以属于多个ID。反卷积模块: 用于上采样，恢复到原始图像尺寸，确保输入和输出图像尺寸一致。将不同的像素划分到不同的类别，非常细粒度的分类。人像抠图，医学组织提取，遥感图像分析，自动驾驶，材料图像等。

2025-03-20 10:40:54 274

原创 YOLOv4学习总结

并且还是一个捷径，红色的没准走个100层(Resnet)，绿色的几层就到了。亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点。V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小。数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转。M 不仅考虑了IoU的值,还考虑了两个Box中心点之间的距离。网络细节部分加入了很多改进，引入了各种能让特征提取更好的方法。损失函数必须考虑三个几何因素：重叠面积，中心点距离，长宽比。注意力机制，网络细节设计，特征金字塔等，你能想到的全有。

2025-03-14 10:49:06 238

原创 YOLO-V3学习总结

13*13特征图上：(116x90)，(156x198)，(373x326)26*26特征图上：(30x61)，(62x45)，(59x119)52*52特征图上：(10x13)，(16x30)，(33x23)终于到V3了，最大的改进就是网络结构，使其更适合小目标检测。特征做的更细致，融入多持续特征图信息来预测不同规格物体。先验框更丰富了，3种scale，每种3个规格，一共9种。YOLO-V2中选了5个，这回更多了，一共有9种。YOLO-V2中选了5个，这回更多了，一共有9种。3种scale，更多先验框。

2025-03-13 11:08:56 302

原创 YOLO系列

很明显，堆叠小的卷积核所需的参数更少一些，并且卷积过程越多，特征提取也会越细致，加入的非线性变换也随着增多，还不会增大权重参数个数，这就是VGG网络的基本出发点，用小的卷积核来完成体特征提取操作。感受野的大小对于特征提取的重要性，并讨论了多卷积层与单卷积核之间的优劣。：通过引入锚框使得预测的框数量更多，并提高了检测的准确率和召回率。最后一层时感受野太大了，小目标可能丢失了，需融合之前的特征。这样会导致收敛问题，模型不稳定，尤其是刚开始进行训练的时候。系列选择的先验比例都是常规的，但是不一定完全适合数据集。

2025-03-12 17:00:25 415

原创目标检测总结

经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表。(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。类似于传统方法，滑动窗口法穷举出许多，然后再根据置信度之类的进行筛选。候选框列表中的所有框依次与A计算IoU，删除大于阈值的候选框。选取置信度最高的框A添到输出列表，将其从候选框列表删除。设定目标框的置信度阈值，常用的阈值是0.5左右。

2025-03-11 11:29:50 331

原创图像处理学习内容总结

样本有时也叫做数据点或者数据实例，通常每个样本由一组称为特征（features，或协变量（covariates））的属性组成。：讨论了图像分类的三层境界（通用分类、细粒度分类、实例级分类）、评估指标（混淆矩阵、精确率、召回率等）、样本量不足的解决方案（迁移学习、数据增强）。在机器学习中，我们需要定义模型的优劣程度的度量，这个度量在大多数情况是“可优化”的，这被称之为目标函数。：介绍了CNN的结构、优势（如参数共享、池化层）、经典架构（LeNet、AlexNet、VGG），以及视觉分层理论。

2025-03-10 17:50:25 297

原创手写数字识别项目

如果模型中有BN（Batch Normalization使用的层）和Dropout，需要在训练时添加model.train()，在测试时添加model.eval()。其中model.train()是保证BN层用每一批数据的均值和方差，而model.eval()是保证BN用全部训练数据的均值和方差；定义损失函数：定义损失函数可以通过自定义方法或使用PyTorch内置的损失函数，如回归使用的loss_fun=nn.MSELoss()，分类使用的nn.BCELoss等损失函数，更多内容可参考本书5.2.4节。

2025-03-06 11:15:55 321

原创集成算法总结

集成学习的实现过程，包括如何利用多个模型进行投票，以及如何计算集成学习的准确率，集成学习可以通过投票法选取重复出现的答案作为最终结果，并通过计算每个模型的准确率来评估集成学习的效果。使用复杂模型可以显著提高准确率，但也需要注意模型的优化和调整。4. 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。2. 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；计算每个模型的准确率，并集成学习的准确率。

2025-03-05 17:49:54 299

原创 pytorch深度学习模型操作流程

定义了一个名为 Net 的卷积神经网络类，采用了全局平均池化层（ AdaptiveAvgPool2d ），包含卷积层（ Conv2d ）、池化层（ MaxPool2d ）和全连接层（ Linear ），并将模型转移到可用的设备（GPU或CPU）上。通过循环迭代训练数据集 trainloader ，进行10个轮次（epoch）的训练。计算每个类别的准确率，通过循环遍历测试集，分别统计每个类别预测正确的数量和该类别的总数量，进而计算并输出每个类别的准确率，如plane类别为72%，car类别为82%等。

2025-03-05 17:44:02 125

原创代码练习解析

定义第一个卷积层，输入通道数为 3（通常对应 RGB 图像），输出通道数为 16，卷积核大小为 5x5，步长为 1。：定义第二个全连接层，输入特征数为 128，输出特征数为 10（对应 CIFAR10 数据集的 10 个类别）。进行第一次全连接操作，应用 ReLU 激活函数，然后进行第二次全连接操作，再应用 ReLU 激活函数。定义第二个卷积层，输入通道数为 16，输出通道数为 36，卷积核大小为 3x3，步长为 1。：定义第一个全连接层，输入特征数为 1296，输出特征数为 128。

2025-03-03 19:26:10 585

原创图像分类总结

可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。准确率(Precision)：又称为查准率，表示在模型识别为正类的样本中，真正为正类的样本所占的比例。召回率(Recall)：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。将不同的图像，划分到不同的类别标签，实现最小的分类误差。

2025-02-28 10:35:27 203

原创 Pytorch数据处理工具箱

如果要对数据集进行多个操作，可通过Compose将这些操作像管道一样拼接起来，类似于nn.Sequential。#实例化SummaryWriter，并指明日志存放路径。1）导入tensorboard，实例化SummaryWriter类，指明记录日志路径等信息。transforms提供了对PIL Image对象和Tensor对象的常用操作。transforms提供了对PIL Image对象和Tensor对象的常用操作。#即add_xxx(标签，记录的对象，迭代次数)2）对Tensor的常见操作如下。

2025-02-28 08:19:26 376

原创 Pytorch数据处理工具箱

一次只能获取一个样本。

2025-02-26 17:42:28 197

原创 Pytorch神经网络工具箱

残差块有两种，一种是正常的模块方式，将输入与输出相加，然后应用激活函数ReLU。另一种是为使输入与输出形状一致，需添加通过1×1卷积调整通道和分辨率。组合这两个模块得到现代经典RetNet18网络结构。5.循环测试或验证模型。1.加载预处理数据集。

2025-02-25 11:31:58 309

原创 Pytorch神经网络工具箱

nn.functional中的函数，写法一般为nn.funtional.xxx，如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。继承nn.Module基类构建模型，又使用相关模型容器(nn.Sequential,nn.ModuleList,nn.ModuleDict等）进行封装。nn.Module，写法一般为nn.Xxx，如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。

2025-02-24 16:42:22 216

原创卷积神经网络

通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。AlexNet由⼋层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。表示学习：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习。AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。浅层卷积核提取：边缘、颜色、斑块等底层像素特征。更大更深的LeNet。

2025-02-21 10:28:22 254

原创卷积神经网络

通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。不管检测对象出现在图像中的哪个位置，神经网络的前面几层都应该对相同的图像区域具有相似的反应。神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远的区域的关系。步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状。

2025-02-20 11:04:41 609

原创多层感知机

本文将介绍多层感知机的概念及其学习过程。输入层接收外部数据，输出层输出预测结果，隐藏层则负责处理输入和输出之间的复杂关系。2、前向传播：给定一个输入样本，从输入层开始，经过隐藏层，最终到达输出层。在这个过程中，每个神经元都会计算输入信号的加权和，然后通过激活函数进行非线性变换。5、更新权重和偏置：根据梯度下降法，将梯度乘以学习率，然后更新权重和偏置。学习率是影响训练速度和稳定性的重要参数，过大可能导致训练不稳定，过小则收敛速度慢。在训练过程中，多层感知机不断调整权重和偏置，以学习输入和输出之间的复杂关系。

2025-02-19 17:01:57 171

原创线性回归和softmax回归

损失函数的值越小，表示模型的预测结果与实际值越接近，模型的性能也就越好。常见的损失函数类型包括‌：均方误差（MSE）：常用于回归任务，通过计算预测值与实际值之间差的平方的平均值来衡量误差。从回归到多分类的跨越，需要调整的是模型的目标函数。选择线性回归模型，通常表示为 Y = wX + b，其中 Y 是预测值，X 是自变量，w 是权重，b 是偏置项。softmax回归是一种基于概率模型的分类算法，其核心思想是将输入的特征向量映射到概率分布上，从而实现对不同类别的预测。五、softmax回归原理。

2025-02-18 18:59:40 280

原创人工智能怎样通过图像及数据学习并应用

通过对这些数据进行预处理，如缩放、裁剪、旋转等操作，可以增加数据的多样性，提高模型的泛化能力。通过多层神经网络的组合，CNN可以自动学习到图像的高级特征，从而实现对图像的分类、检测和分割等任务。在数据学习方面，人工智能同样采用深度学习技术。总之，人工智能通过图像及数据学习，已经在各个领域取得了显著的成果。1. 医疗诊断：人工智能通过学习大量医学图像和病例数据，可以帮助医生进行疾病诊断，提高诊断的准确性和效率。3. 智能家居：人工智能通过学习家庭环境图像和数据，可以实现对家庭设备的智能控制，提高生活品质。

2025-02-17 18:38:11 228

空空如也

python安装过程中的问题

pytorch安装过程中的问题

安装pytorch时出现这个问题怎么解决

数仓处理对时间戳进行转换

数仓处理中对数据进行清洗

数仓处理清洗原始数据

数仓处理清洗原始数据

数仓处理中进行数据清洗

数仓处理进行数据清洗

大数据中hive无非正常开启

数仓分层实验中将数据导入到表中