kjt77-优快云博客

原创 spark-sql

在虚拟机下载相关配置文件，在spark-shell中连接需将hive-site.xml拷贝到conf/目录并修改url、将MySQL驱动copy到jars/目录、把core-site.xml和hdfs-site.xml拷贝到conf/目录，最后重启spark-shell。导入spark-hive_2.12和hive-exec依赖，将hive-site.xml拷贝到项目resources目录。2.将hive-site.xml 文件拷贝到项目的 resources 目录中。

2025-04-21 19:30:00 167

原创 Spark-SQL核心编程

在 Spark 目录下执行如下命令启动 Spark SQL CLI，直接执行 SQL 语句，类似于 Hive 窗口。➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下，并将url中的localhost改为node01。D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。运行bin/目录下的spark-sql.cmd 或者打开cmd，在。将hive-site.xml文件放入conf/当中；

2025-04-16 19:14:48 272

原创 Spark-SQL

/ 创建 SparkConf 对象，设置应用名称和运行模式。// 执行 SQL 查询，计算平均工资并显示结果。// 自定义聚合函数类，继承自 Aggregator。// 创建 RDD 并存储人员姓名和工资信息。// 创建 SparkContext 对象。// 创建 SparkSession 对象。// 关闭 SparkSession 连接。// 创建 RDD 并进行转换和聚合操作。//创建SparkSession对象。// 创建 SparkConf 对象。// 在 Spark 中注册聚合函数。

2025-04-15 11:19:54 555

原创 spark-SQL

这使得 Spark SQL 得以洞察更多的结构信息，从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。在 IDEA 中开发程序时，如果需要 RDD 与 DF 或者 DS 之间互相操作，那么需要引入 import spark.implicits._ 这里的 spark 不是 Scala 中的包名，而是创建的 sparkSession 对象的变量名称，所以必须先创建 SparkSession 对象再导入。

2025-04-14 17:44:05 881

原创 spark-core

在 Driver 程序中定义的变量，在。// 创建 SparkConf 对象，设置应用名称和运行模式为本地模式。// 创建 SparkConf 对象，设置应用名称和运行模式为本地模式。// 创建 SparkConf 对象，设置应用名称和运行模式为本地模式。// 创建 SparkConf 对象，设置应用名称和运行模式。// 创建 SparkConf 对象，设置应用名称和本地运行模式。// 创建 SparkConf 对象，设置应用名称和运行模式。// 创建 SparkConf 对象，设置应用名和运行模式。

2025-04-11 10:31:12 587

原创 spark-core

(acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2) // 将分区内部计算的结果进行分区间的汇总计算。(acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1), // 在分区内部进行，将新元素 v 合并到第一步操作得到的结果中。// 创建 SparkConf 对象，设置运行模式为本地模式，应用名为 RDD_function。

2025-04-10 10:40:27 478

原创 spark-core

通过基于 RDD 的一系列转换，丢失的数据会被重算，由于 RDD 的各个 Partition 是相对独立的，因此只需要计算丢失的部分即可，并不需要重算全部 Partition。但是，在实际使用的时候，如果想重用数据，仍然建议调用 persist 或 cache。Hadoop 用户向 YARN 集群提交应用程序时,提交程序中应该包含 ApplicationMaster，用于向资源调度器申请执行任务的资源容器 Container，运行用户自己的程序任务 job，监控任务的运行状态，检查任务是否失败等异常情况。

2025-04-09 23:12:49 402

原创 scala编程语言

/（2）创建一个 List（数据有顺序，可重复） val list: List[Int] = List(1,2,3,4,3)//（11）拉链注:如果两个集合的元素个数不相等，那么会将同等数量的数据进行拉链，多余的数据省略不用。//（5）集合间合并：将一个整体拆成一个一个的个体，称为扁平化val list3 = List(8,9)（1）创建可变集合（2）打印集合（3）向集合增加数据（4）删除数据（5）修改数据。//（1）声明元组的方式：(元素 1，元素 2，元素 3)

2025-04-07 17:36:53 815

原创 scala编程语言

（1）案例中的 super，不是表示其父特质对象，而是表示上述叠加顺序中的下一个特质，即，MyClass 中的 super 指代 Color，Color 中的 super 指代Category，Category 中的super指代Ball。第二种，一个类（Sub）混入的两个 trait（TraitA，TraitB）中具有相同的具体方法，且两个 trait 继承自相同的 trait（TraitC），及所谓的“钻石问题”，解决这类冲突问题，Scala 采用了特质叠加的策略。

2025-04-04 11:43:07 742

原创 scala编程语言

封装就是把抽象出的数据和对数据的操作封装在一起，数据被保护在内部，程序的其它部分只有通过被授权的操作（成员方法），才能对数据进行操作。在 Scala 中可以为每个包定义一个同名的包对象，定义在包对象中的成员，作为其对应包下所有 class 和 object 的共享变量，可以被直接访问。如果类是 public 的，则必须和文件名一致。（1）val 修饰对象，不能改变对象的引用（即：内存地址），可以改变对象属性的值。//val 修饰对象，不能改变对象的引用（即：内存地址），可以改变对象属性的值。

2025-04-02 21:27:32 910

原创大数据技术之scala

/ (2)如果参数列表中存在多个参数，那么可变参数一般放置在最后def test2( name : String, s: String* ): Unit = {解决问题时，将问题分解成一个一个的步骤，将每个步骤进行封装（函数），通过调用这些封装好的步骤，解决问题。//（1）定义一个函数，函数参数还是一个函数签名；有多个参数，且每个参数再后面只使用一次，则参数省略且后面参数用_表示，第n 个_代表第n 个参数。闭包：如果一个函数，访问到了它的外部（局部）变量的值，那么这个函数和他所处的环境，称为闭包。

2025-04-01 15:13:01 901

原创大数据技术之scala

Scala 内置控制结构特地去掉了 break 和 continue，是为了更好的适应函数式编程，推荐使用函数式的风格解决break 和continue 的功能，而不是一个关键字。需求 4：循环遍历 10 以内的所有数据，奇数打印，偶数跳过（continue）需求：将原数据中所有值乘以 2，并把数据返回到一个新的集合中。需求 2：采用 Scala 自带的函数，退出循环。需求：输出 1 到 5 中，不等于 3 的值。需求：输出 5 句 "scala "需求：输出 5 句 "scala "

2025-03-31 21:09:36 847

原创 scala编程语言

总结：Scala是一门以Java虚拟机 (JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言，Scala比Java代码简洁明了,表达力强，开发速度快，可以与Java相互转换使用，可以为以后学习spark和Kafka打下基础。import的效果从开始延伸到语句块的结束。(2)对于方法名称：第一个首字母要用小写，如果若干单词被用于构成方法的名称，则每个单词的第一个字母应大写。(1)对于类名：第一个字母要大写，如果需要使用几个单词来构成一个类的名称，每个单词的第一个字母要大写。

2025-03-27 19:01:12 400

原创 U-net系列算法

5*64 =320 ，最终组合得到全部特征。M 训练的时候同样会用到L4 ，效果还不错。现在来看，很多视觉任务都可以套用这招。M 以前我们都是加法，现在全都要。把能拼能凑的特征全用上就是升级版了。不同的max pool整合低阶特征。这么简单的结构就能把分割任务做好。起初是做医学方向，现在也是。其实跟densenet思想一致。损失由多个位置计算，再更新。（X1和X2 ，轮廓之类的）也是很常见的事，多输出。（感受野大的，全局的）简单但是很实用，应用广。特征融合，拼接更全面。

2025-03-21 10:21:56 367

原创图像分割项目

VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。Cityscape数据集：5000张精细标注的图像(2975张训练图、500张验证图和1525张测试图)、20000张粗略标注的。· 实例分割：只预测前景目标的类别属性以及边框，个体ID，每一个像素可以属于多个ID。· 图像分割：预测目标的轮廓。VOC数据集：一共2913张图，1464张训练图片，1449张验证图片。· 事物Stuff：不可数背景(天空，草地，路面)。

2025-03-20 09:59:34 244

原创 YOLO-V4

并且还是一个捷径，红色的没准走个100层(Resnet) ，绿色的几层就到了。亲民政策，单GPU就能训练的非常好，接下来很多小模块都是这个出发点。数据增强：调整亮度、对比度、色调、随机缩放、剪切、翻转、旋转。M V3中为了更好满足不同输入大小，训练的时候要改变输入数据的大小。M 网络细节部分加入了很多改进，引入了各种能让特征提取更好的方法。M 注意力机制，网络细节设计，特征金字塔等，你能想到的全有。M 不仅考虑了IoU的值,还考虑了两个Box中心点之间的距离。

2025-03-14 10:25:01 412

原创 YOLOV3

➢13*13特征图上：(116x90)，(156x198)，(373x326)26*26特征图上：(30x61)，(62x45)，(59x119)52*52特征图上：(10x13)，(16x30)，(33x23)➢特征做的更细致，融入多持续特征图信息来预测不同规格物体。➢先验框更丰富了，3种scale，每种3个规格，一共9种。➢为了能检测到不同大小的物体，设计了3个scale。➢YOLO-V2中选了5个，这回更多了，一共有9种。YOLO-V2中选了5个，这回更多了，一共有9种。➢左图：图像金字塔；

2025-03-13 09:25:53 181

原创 YOLOV1和YOLOV2

➢很明显，堆叠小的卷积核所需的参数更少一些，并且卷积过程越多，特征提取也会越细致，加入的非线性变换也随着增多，还不会增大权重参数个数，这就是VGG网络的基本出发。➢例如预测值(σtx,σty,tw,th)=(0.2,0.1,0.2,0.32)，anchor框为：Pro=3.19275,ph=4.00944。➢假设输入大小都是h*w*c，并且都使用c个卷积核(得到c个特征图)，可以来计算一下其各自所需参数：一个7*7卷积核所需参数。➢这样会导致收敛问题，模型不稳定，尤其是刚开始进行训练的时候。

2025-03-12 16:37:01 356

原创目标检测项目

COCO(JSON)格式：(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高。VOC(XML)格式：(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。➢经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。➢候选框列表中的所有框依次与A计算IoU，删除大于阈值的候选框。➢mean AP：每个类别所得到的AP的均值。YOLO(TXT)格式：(x,y,w,h)

2025-03-11 10:37:13 224

原创图像分类识别任务项目汇报的总结感悟

标注问题：学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)-个样本(一个图片或者一个候选框)中含有多个物体，标注的label也是多个的，多个类间并不是互斥的。一般情况下，模型的精度越高，说明模型的效果越好。廉价又高质量的传感器、廉价的数据存储以及廉价计算的普及，特别是GPU的普及，使大规模的算力唾手可得。流程:在梯度法中，函数的取值从当前位置沿着梯度方向前进一定的距离然后在新的方向重新求梯度，再沿着新梯度的方向前进，如此反复，不断的沿梯度方向前进。

2025-03-10 19:01:30 370

原创手写数字识别项目

3)求损失值:yprevmodel(x)loss=loss fu(y prev,y true)4)自动求导，实现梯度的反向传播:loss.backward()5)更新参数:optimizer.step)定义损失函数可以通过自定义方法或使用PvIorch内署的损失函数，如回归使用的loss fimem, SELoss0)，分类使用的m.BCELoss等损失函数，更多内容可参考本书5.2.4节。Pytoch常用的优化方法都封装在torch.optin里面，其设计很灵活，可以扩展为自定义的优化方法。

2025-03-06 11:15:18 236

原创图像识别技术与应用

图像识别技术与应用。

2025-03-05 16:29:12 135

原创集成算法的机器学习

4. 将所有弱分类组合成强分类器，各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，降低分类误差率大的弱分类器的权重。·对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。2. 训练弱分类器，如果样本分类正确，则在构造下一个训练集中，它的权值就会被降低；①Bagging：个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表为随机森林。·构造树模型：由于二重随机性，使得每个树基本上都不会一样，最终的结果也会不一样。

2025-03-05 16:27:36 290

原创图像识别技术与应用

图像识别技术与应用。

2025-03-04 22:21:09 99

原创图像识别技术与应用

CIFAR-10数据集由10个类的60000个32x32彩色图像组成，每个类有6000个图像。数据集分为5个训练批次和1个测试批次，每个批次有10000个图像。测试批次包含来自每个类别的恰好1000个随机选择的图像。训练批次以随机顺序选取剩余图像，但一些训练批次可能更多会选取来自一个类别的图像。图6-27 显示了数据集中涉及的10个类，以及来自每个类的10个随机图像。为方便起见，我们已预先下载好数据并解压，存放在当前目录的data目录下，所以，参数download=False。6.5.1 数据集说明。

2025-03-03 17:39:00 188

原创图像分类项目

可以用来表示模型的精度，即模型识别正确的个数/样本的总个数。主对角线的元素之和为正确分类的样本数，其余元素之和为错误分类的样本数。准确率(Precision)：又称为查准率，表示在模型识别为正类的样本中，真正为正类的样本所占的比例。召回率(Recall)：又称为查全率，表示模型正确识别出为正类的样本的数量占总的正类样本数量的比值。对于k分类问题，混淆矩阵为k*k的矩阵，元素Cij表示第i类样本被分类器判定为第j类的数量。将不同的图像，划分到不同的类别标签，实现最小的分类误差。

2025-02-28 10:27:58 223

原创 pytorch数据处理工具箱

cd到logs目录所在的同级目录，在命令行输入如下命令，logdir等式右边可以是相对路径或绝对路径。·如果要对数据集进行多个操作，可通过Compose将这些操作像管道一样拼接起来，类似于nn.Sequential。transforms提供了对PIL Image对象和Tensor对象的常用操作。transforms提供了对PIL Image对象和Tensor对象的常用操作。使用TensorBoard的一般步骤如下。1）对PIL Image的常见操作如下。2）对Tensor的常见操作如下。

2025-02-26 17:19:47 238

原创 pytorch神经网络工具箱

它能够很好的与nn.Sequential结合使用，而nn.functional.xxx无法与nn.Sequential结合使用。➢nn.functional中的函数，写法一般为nn.funtional.xxx，如nn.funtional.linear、nn.funtional.conv2d、nn.funtional.cross_entropy等。➢nn.Module，写法一般为nn.Xxx，如nn.Linear、nn.Conv2d、nn.CrossEntropyLoss等。

2025-02-24 16:07:13 746

原创卷积神经网络

通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。• AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。不管检测对象出现在图像中的哪个位置，神经网络的前面几层都应该对相同的图像区域具有相似的反应。神经网络的前面几层应该只探索输入图像中的局部区域，而不过度在意图像中相隔较远的区域的关系。步幅是每次滑动核窗口时的行/列的步长，可以成倍的减少输出形状。

2025-02-20 09:56:33 272 1

原创多层感知机

激活函数：刚才登场的h（x）函数会将输入信号的总和转换为输出信号，这种函数一般称为激活函数（activation function）。（3）激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，否则会影响训练的效率和稳定性。神经网络在外界输入样本的刺激下不断改变网络的连接权值乃至拓扑结构，以使网络的输出不断地接近期望的输出。激活函数在神经元中非常重要的。如“激活”一词所示，激活函数的作用在于决定如何来激活输入信号的总和。（2）激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。

2025-02-19 16:43:11 401 2

原创图像识别技术与应用的线性回归

流程：在梯度法中，函数的取值从当前位置沿着梯度方向前进一定的距离，然后在新的方向重新求梯度，再沿着新梯度的方向前进，如此反复，不断的沿梯度方向前进。梯度指示的反向是各点处的函数值减小最多的方向,所以无法保证梯度所指的方向就是函数的最小值或者真正应该前进的方向。比如，对于某个输入图像，预测是图中的数字0到9中的哪一个的问题（10类别分类问题），将输出层的神经元设定为10个。所以在寻找函数的最小值的位置任务中，以梯度的信息为线索，决定前进的方向。严格的讲，梯度指示的反向是各点处的函数值减小最多的方向。

2025-02-18 11:00:19 139 1

原创人工智能的应用

设计一个灵活的程序算法，其输出由许多参数决定，然后使用数据集来确定当下的“最佳参数集”，这些参数通过某种性能度量方式来达到完成任务的最佳性能。样本有时也叫做数据点或者数据实例，通常每一个样本由一组称为特征（features，或协变量（covaraiates））的属性组成。仅仅拥有海量的数据是不够的，还需要正确的数据。任一调整参数后的程序被称为模型，通过操作参数而生成的所有不同程序的集合称为“模型族”。当处理图像数据时，每一张单独的照片即为一个样本，它的特征由每个像素数值的有序列表示。日常生活中的机器学习。

2025-02-17 17:56:20 305 1

2501_90678010的博客

原创 spark-sql

原创 Spark-SQL核心编程

原创 Spark-SQL

原创 spark-SQL

原创 spark-core

原创 spark-core

原创 spark-core

原创 scala编程语言

原创 scala编程语言

原创 scala编程语言

原创大数据技术之scala

原创大数据技术之scala

原创 scala编程语言

原创 U-net系列算法

原创图像分割项目

原创 YOLO-V4

原创 YOLOV3

原创 YOLOV1和YOLOV2

原创目标检测项目

原创图像分类识别任务项目汇报的总结感悟

原创手写数字识别项目

原创图像识别技术与应用

原创集成算法的机器学习

原创图像识别技术与应用

原创图像识别技术与应用

原创图像分类项目

原创 pytorch数据处理工具箱

原创 pytorch神经网络工具箱

原创卷积神经网络

原创多层感知机

原创图像识别技术与应用的线性回归

原创人工智能的应用

空空如也

空空如也