睡了吃--优快云博客

原创 Spark-SQL核心编程

在 Spark 目录下执行如下命令启动 Spark SQL CLI，直接执行 SQL 语句，类似于 Hive 窗口。➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下，并将url中的localhost改为node01。D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。运行bin/目录下的spark-sql.cmd 或者打开cmd，在。将hive-site.xml文件放入conf/当中；

2025-04-16 19:17:32 346

原创 Spark-SQL核心编程

/ 创建 SparkConf 对象，设置应用名称和运行模式。// 执行 SQL 查询，计算平均工资并显示结果。// 自定义聚合函数类，继承自 Aggregator。// 创建 RDD 并存储人员姓名和工资信息。// 创建 SparkContext 对象。// 创建 SparkSession 对象。// 关闭 SparkSession 连接。// 创建 RDD 并进行转换和聚合操作。//创建SparkSession对象。// 创建 SparkConf 对象。// 在 Spark 中注册聚合函数。

2025-04-15 22:48:12 714

原创 spark- SQL简介

但是，随着 Spark 的发展，对于野心勃勃的 Spark 团队来说，Shark 对于 Hive 的太多依赖（如采用 Hive 的语法解析器、查询优化器等等），制约了 Spark 的 One Stack Rule Them All 的既定方针，制约了 Spark 各个组件的相互集成，所以提出了 SparkSQL 项目。从 API 易用性的角度上看，DataFrame API 提供的是一套高层的关系操作，比函数式的 RDD API 要更加友好，门槛更低。➢ DataSet 是强类型的。

2025-04-14 15:19:21 956

原创 Scala

/（4）扁平化+映射注：flatMap 相当于先进行 map 操作，在进行 flatten。//（2）转化/映射println(list.map(x => x + 1))// 从源码的角度，reduce 底层调用的其实就是 reduceLeft。// 单词计数：将集合中出现的相同的单词，进行计数，取计数排名前三的结。单词计数：将集合中出现的相同的单词，进行计数，取计数排名前三的结果。// 4) 对计数完成后的结果进行排序（降序）// 2) 将相同的单词放置在一起。// 3) 对相同的单词进行计数。

2025-04-10 08:11:04 835

原创 Scala

/（2）创建一个 List（数据有顺序，可重复） val list: List[Int] = List(1,2,3,4,3)//（11）拉链注:如果两个集合的元素个数不相等，那么会将同等数量的数据进行拉链，多余的数据省略不用。//（5）集合间合并：将一个整体拆成一个一个的个体，称为扁平化val list3 = List(8,9)（1）创建可变集合（2）打印集合（3）向集合增加数据（4）删除数据（5）修改数据。//（1）声明元组的方式：(元素 1，元素 2，元素 3)

2025-04-10 08:10:21 342

原创 Scala

/（1）对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。==比较两个变量本身的值，即两个对象在内存中的首地址；（1）对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。// 测试：>、>=、<=、<、==、!（2）需求 2：Java 和Scala 中关于==的区别。<= 小于等于 4<=3 false。== 相等于 4==3 false。

2025-04-10 08:09:51 345

原创 scala

4） Scala在设计时，马丁·奥德斯基是参考了Java的设计思想，可以说Scala是源于Java，同时马丁·奥德斯基也加入了自己的思想，将函数式编程语言的特点融合到JAVA中, 因此，对于学习过Java的同学，只要在学习Scala的过程中，搞清楚Scala和Java相同点和不同点，就可以快速的掌握Scala这门语言。2） Scala源代码（.scala）会被编译成Java字节码（.class），然后运行于JVM之上，并可以调用现有的Java类库，实现两种语言的无缝对接。

2025-04-10 08:06:21 313

原创 scala编程语言

总结：Scala是一门以Java虚拟机 (JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言，Scala比Java代码简洁明了,表达力强，开发速度快，可以与Java相互转换使用，可以为以后学习spark和Kafka打下基础。import的效果从开始延伸到语句块的结束。(2)对于方法名称：第一个首字母要用小写，如果若干单词被用于构成方法的名称，则每个单词的第一个字母应大写。(1)对于类名：第一个字母要大写，如果需要使用几个单词来构成一个类的名称，每个单词的第一个字母要大写。

2025-03-27 19:00:47 379

原创 U-net系列算法

M 以前我们都是加法，现在全都要。把能拼能凑的特征全用上就是升级版了。这么简单的结构就能把分割任务做好。起初是做医学方向，现在也是。其实跟densenet思想一致。简单但是很实用，应用广。很多视觉任务都可以套用这招。可以根据速度要求来快速完成。M 概述就是编码解码过程。还引入了特征拼接操作。特征融合，拼接更全面。各层统一用卷积得到64。训练的时候同样会用到。最终组合得到全部特征。

2025-03-21 10:24:17 258

原创图像分割项目

VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。· Cityscape数据集：5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的。实例分割：只预测前景目标的类别属性以及边框，个体ID，每一个像素可以属于多个ID。· VOC数据集：一共2913张图，1464张训练图片，1449张验证图片。· 人像抠图，医学组织提取，遥感图像分析，自动驾驶，材料图像等。

2025-03-20 09:52:05 364

原创【无标题】

并且还是一个捷径，红色的没准走个100层(Resnet) ，绿色的几层就到了。比较好理解，坐标回归预测值都在0-1之间，如果在grid边界怎么表示？亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点。SOFT-NMS做人留一面日好相见，柔和一点的NMS ，更改分数而且直接剔除。M V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小。M 注意力机制，网络细节设计，特征金字塔等，你能想到的全有。

2025-03-14 10:26:19 397

原创 YOLOV3

YOLO系列YOLO-03 YOLO系列·YOLO-V3 ➢终于到V3了，最大的改进就是网络结构，使其更适合小目标检测➢特征做的更细致，融入多持续特征图信息来预测不同规格物体➢先验框更丰富了，3种scale，每种3个规格，一共9种➢softmax改进，预测多标签任务YOLO系列·多scale ➢为了能检测到不同大小的物体，设计了3个scale YOLO系列·scale变换经典方法 ➢左图：图像金字塔；右图：单一的输入； YOLO系列·scale变换经典方法➢左图：对不同的特征图分别利用；右图：不同的特征图融

2025-03-13 09:31:58 150

原创 yolov1和yolov2

➢很明显，堆叠小的卷积核所需的参数更少一些，并且卷积过程越多，特征提取也会越细致，加入的非线性变换也随着增多，还不会增大权重参数个数，这就是VGG网络的基本出发。如果堆叠3个3*3的卷积层，并且保持滑动窗口步长为1，其感受野就是7*7的了，这跟一个使用7*7卷积核的结果是一样的，那为什么非要堆叠3个小卷积呢？➢最后一层时感受野太大了，小目标可能丢失了，需融合之前的特征。➢这样会导致收敛问题，模型不稳定，尤其是刚开始进行训练的时候。➢V1训练时用的是224*224，测试时使用448*448。

2025-03-12 16:29:39 678

原创【目标检测项目】

VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。➢经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。➢其他：Cascade R-CNN、Guided Anchoring。➢选取置信度最高的框A添到输出列表，将其从候选框列表删除。➢设定目标框的置信度阈值，常用的阈值是0.5左右。➢mean AP：每个类别所得到的AP的均值。➢SSD系列：SSD、DSSD、FSSD。

2025-03-11 11:40:59 244

原创【图像分类识别任务项目汇报的总结】

标注问题：学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)-个样本(一个图片或者一个候选框)中含有多个物体，标注的label也是多个的，多个类间并不是互斥的。一般情况下，模型的精度越高，说明模型的效果越好。廉价又高质量的传感器、廉价的数据存储以及廉价计算的普及，特别是GPU的普及，使大规模的算力唾手可得。流程:在梯度法中，函数的取值从当前位置沿着梯度方向前进一定的距离然后在新的方向重新求梯度，再沿着新梯度的方向前进，如此反复，不断的沿梯度方向前进。

2025-03-10 21:25:42 401

原创【手写数字识别项目】

3)求损失值:yprevmodel(x)loss=loss fu(y prev,y true)4)自动求导，实现梯度的反向传播:loss.backward()5)更新参数:optimizer.step)定义损失函数可以通过自定义方法或使用PvIorch内署的损失函数，如回归使用的loss fimem, SELoss0)，分类使用的m.BCELoss等损失函数，更多内容可参考本书5.2.4节。Pytoch常用的优化方法都封装在torch.optin里面，其设计很灵活，可以扩展为自定义的优化方法。

2025-03-06 11:18:19 1938

原创【机器学习】

4. 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。·对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。2. 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；①Bagging：个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表为随机森林。构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。

2025-03-05 16:25:45 324

原创图像识别技术

测试模型。

2025-03-04 22:21:48 394

原创图像识别技术与应用

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。数据集分为5个训练批次和1个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像，但一些训练批次可能更多会选取来自一个类别的图像。图6-27 显示了数据集中涉及的10个类，以及来自每个类的10个随机图像。为方便起见，我们已预先下载好数据并解压，存放在当前目录的data目录下，所以，参数download=False。

2025-03-03 17:38:42 95

原创图像分类项目

可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。一般情况下，模型的精度越高，说明模型的效果越好。深度学习最重要的属性，计算最长路径的卷积层+全连接层数量。主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。召回率(Recall)：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。· 将不同的图像，划分到不同的类别标签，实现最小的分类误差。

2025-02-28 09:23:06 183

原创 Pytorch数据处理工具箱

cd到logs目录所在的同级目录，在命令行输入如下命令，logdir等式右边可以是相对路径或绝对路径。·如果要对数据集进行多个操作，可通过Compose将这些操作像管道一样拼接起来，类似于nn.Sequential。1）导入tensorboard，实例化SummaryWriter类，指明记录日志路径等信息。使用TensorBoard的一般步骤如下。使用TensorBoard的一般步骤如下。1）对PIL Image的常见操作如下。用TensorBoard的一般步骤如下。其中，xxx指的是各种可视化方法。

2025-02-26 16:52:19 389 1

原创【Pytorch神经网络工具盒】

它能够很好的与nn.Sequential结合使用，而nn.functional.xxx无法与nn.Sequential结合使用。➢nn.functional中的函数，写法一般为nn.funtional.xxx，如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。nn.Module，写法一般为nn.Xxx，如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。构建神经网络的主要工具。

2025-02-24 16:12:39 408

原创【无标题】

通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。表示学习：如果有一种算法可以自动地学习出有效的特征，并提高最终机器学习模型的性能，那么这种学习就可以叫作表示学习。• AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。不同次数的重复VGG块，可获得不同的架构，例如VGG-16，VGG-19，......•3x3 卷积（填充=1）（n层，m个通道）

2025-02-21 09:17:52 334

原创【卷积神经网络】

使用一个还不错的相机采集RGB图片（3600万个像素）使用 100 个神经元单隐含层的 MLP ，模型有 36 亿个参数远超过地球上的狗和猫的数量。通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。• AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远的区域的关系。

2025-02-20 09:26:53 618 2

原创多层感知机

当学习器把训练样本学得"太好"了的时候，很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质——过拟合；（3）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。神经网络在外界输入样本的刺激下不断改变网络的连接权值乃至拓扑结构，以使网络的输出不断地接近期望的输出。（2）激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。感知机的局限性:感知机的局限性就是只能表示由一条直线分割的空间。w成为权重：控制输入信号的重要性的参数。

2025-02-19 16:53:59 398 2

原创图像识别技术与应用

比如，对于某个输入图像，预测是图中的数字0到9中的哪一个的问题（10类别分类问题），将输出层的神经元设定为10个。流程：在梯度法中，函数的取值从当前位置沿着梯度方向前进一定的距离，然后在新的方向重新求梯度，再沿着新梯度的方向前进，如此反复，不断的沿梯度方向前进。梯度指示的反向是各点处的函数值减小最多的方向,所以无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。所以在寻找函数的最小值的位置任务中，以梯度的信息为线索，决定前进的方向。严格的讲，梯度指示的反向是各点处的函数值减小最多的方向。

2025-02-18 11:09:51 142 1

原创【人工智能】

2、人工智能学科：人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能的演变也使人们的生活方式发生了一些变化如：汽车的自动驾驶、人脸识别还有智能医疗等一系列的改变。诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏、艺术创作和机器人等。1、人工智能：用人工的方法在机器（计算机）上实现的智能；与图像识别与技术有关的职位有应用工程师、AI算法工程师、人工智能应用工程师。视觉、自然语言处理、生物特征识别、搜索引擎、医学。

2025-02-17 17:47:14 202

2501_90677999的博客

原创 Spark-SQL核心编程

原创 Spark-SQL核心编程

原创 spark- SQL简介

原创 Scala

原创 Scala

原创 Scala

原创 scala

原创 scala编程语言

原创 U-net系列算法

原创图像分割项目

原创【无标题】

原创 YOLOV3

原创 yolov1和yolov2

原创【目标检测项目】

原创【图像分类识别任务项目汇报的总结】

原创【手写数字识别项目】

原创【机器学习】

原创图像识别技术

原创图像识别技术与应用

原创图像分类项目

原创 Pytorch数据处理工具箱

原创【Pytorch神经网络工具盒】

原创【无标题】

原创【卷积神经网络】

原创多层感知机

原创图像识别技术与应用

原创【人工智能】

空空如也

空空如也