бесплатно-优快云博客

原创 Spark-SQL（DataFrame）

Spark Core 中，如果想要执行应用程序，需要首先构建上下文环境对象 SparkContext， Spark SQL 其实可以理解为对 Spark Core 的一种封装，不仅仅在模型上进行了封装，上下文环境对象也进行了封装。在老的版本中，SparkSQL 提供两种 SQL 查询起始点：一个叫 SQLContext，用于 Spark 自己提供的 SQL 查询；一个叫 HiveContext，用于连接 Hive 的查询。

2025-05-07 17:45:14 796

原创 Spark-SQL简介

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。

2025-05-07 17:01:32 881

原创 Spark-Core（累加器）

实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。自定义累加器实现wordcount创建自定义累加器。

2025-05-07 16:43:44 160

原创 Spark-Core（RDD行动算子）

行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。将数据保存到不同格式的文件中。

2025-05-07 16:31:49 545

原创 Spark-Core（Key-Value类型）

（2）从功能的角度：reduceByKey 其实包含分组和聚合的功能。GroupByKey 只能分组，不能聚合，所以在分组聚合的场合下，推荐使用 reduceByKey，如果仅仅是分组而不需要聚合。那么还是只能使用 groupByKey。现有数据 List(("a", 88), ("b", 95), ("a", 91), ("b", 93), ("a", 95), ("b", 98))，求每个key的总值及每个key对应键值对的个数.

2025-05-07 16:31:03 444

原创 Spark-Core（双Value类型）

函数说明：将两个 RDD 中的元素，以键值对的形式进行合并。其中，键值对中的 Key 为第 1 个 RDD中的元素，Value 为第 2 个 RDD 中的相同位置的元素。函数说明：以源 RDD 元素为主，去除两个 RDD 中重复元素，将源RDD的其他元素保留下来。函数说明：对源 RDD 和参数 RDD 求并集后返回一个新的 RDD（重复数据不会去重）

2025-05-07 16:30:06 372

原创 Spark-Core（Value类型）

先简略介绍下里面会说到的“函数签名”和“函数说明”。顾名思义就是说明这玩意是啥，有啥用；是指函数的名称及其参数类型的组合。函数签名用于标识和区分不同的函数。函数签名不包括返回类型，也不包括参数的名字。两个函数如果名称相同且参数类型（及其顺序）相同，那么它们的函数签名是相同的。

2025-05-07 16:29:16 896

原创 Spark-Core（RDD）

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性：存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可根据需要重新分片。分布式：数据存储在大数据集群不同节点上。数据集：RDD 封装了计算逻辑，并不保存数据。数据抽象：RDD 是一个抽象类，需要子类具体实现。不可变。

2025-05-07 16:11:21 943

原创 Spark-Core

任务完成后，各个 Executor 会将任务的输出结果返回给 Spark Driver。Spark Driver 收集这些结果并进行汇总，然后根据用户的需求生成最终的输出数据。这个过程可能涉及到数据的聚合、排序或其他后续处理操作。

2025-05-07 10:37:28 554

原创 Spark安装教程（Linux版/Windows版）

安装环境：三台已配置完毕的虚拟机（网络、网关、localhost、密钥、防火墙等）spark压缩包（.tgz）官方下载链接放在下面这里用spark-3.0.0（虚拟机）举例。Apache Archive 分发目录。

2025-05-07 10:17:35 980

原创 Scala集合

可变不可变immutablemutable在操作集合的时候，不可变用符号，可变用方法。

2025-05-07 10:16:41 684

原创 Scala面向对象

在Java中，如果类是 public 的，则必须和文件名一致，一般一个.java 有一个 public 类但是在Scala中，Scala 中没有 public，一个.scala 中可以写多个类。通常为[修饰符] class 类名 {类Scala 语法中，类并不声明为public，所有这些类都具有公有可见性（即默认就是public）一个Scala 源文件可以包含多个类//（1）Scala 语法中，类并不声明为 public，所有这些类都具有公有可见性（即默认就是 public）

2025-05-07 10:11:45 716

原创 Scala函数式编程

多了不说直接举栗子更易懂// 函数1：无参，无返回值println("无参，无返回值")test1()// 函数2：无参，有返回值return "无参，有返回值"// 函数3：有参，无返回值// 函数4：有参，有返回值def test4(s:String):String={ return s+"有参，有返回值"// 函数5：多参，无返回值无参，无返回值无参，有返回值scalahello 有参，有返回值dalang, 40。

2025-05-07 09:58:47 677

原创 Scala流程控制

举个栗子：输入年龄，如果年龄小于 18 岁，则输出“童年”说明：由于存在键盘输入部分，所以需要导包“import scala.io.StdIn”

2025-05-07 09:36:42 1026

原创 Scala语法

对比说明，在Java中，数据类型前有单独且必须的定义，这种属于强类型语言，例如int num=10;而在Scala和JavaScript中就不需要这种强制定义，取而代之的是var和val，例如var x=111;val f=58;在这里面，var定义变量；val定义常量//使用val定义的变量值是不可变的，相当于java里用final修饰的变量val i = 1//使用var定义的变量是可变的，在Scala中鼓励使用val//Scala编译器会自动推断变量的类型，必要的时候可以指定类型。

2025-05-07 09:17:52 1033

原创 Scala概述

Scala 是一门多范式（multi-paradigm）的编程语言，它结合了面向对象编程和函数式编程的特性，使其具有稳健性、简洁和灵活性。设计初衷是要集成面向对象编程和函数式编程的各种特性，Scala 运行在 Java 虚拟机上，并兼容现有的 Java 程序。此外，Scala 是 Apache Spark 的主要编程语言，这使其在大数据处理领域占据了重要地位。

2025-03-28 10:20:30 347

原创人工智能图像识别应用基础（图像分割项目）

图像分割：预测目标的轮廓。将不同的像素划分到不同的类别，非常细粒度的分类，特性可以是灰度、颜色、纹理等；目标可以对应单个区域，也可以对应多个区域。

2025-03-20 10:55:51 1000

原创人工智能图像识别应用基础（YOLO系列）

在YOLOv1提出之前，R-CNN系列算法在目标检测领域独占鳌头。R-CNN系列检测精度高，但是由于其网络结构是双阶段（two-stage）的特点，使得它的检测速度不能满足实时性从而饱受诟病。为了打破这一僵局，在2016年，Joseph Redmon、Santosh Divvala、Ross Girshick等人提出了一种单阶段（one-stage）的目标检测网络。它的检测速度非常快，每秒可以处理45帧图片，能够轻松地实时运行。

2025-03-12 17:42:38 1345

原创人工智能图像识别应用基础（目标检测项目）

随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通系统、智能监控系统、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。人工智能技术在深度学习算法在计算机视觉领域的广泛应用，目标检测与识别技术在图像和视频中的精度和实时性也越来越高。越来越多的相关研究成果发表在各种人工智能、计算机视觉和模式识别的顶级期刊和会议上，并且也有越来越多的计算机视觉初创公司将该技术应用到真实的场景中。

2025-03-11 14:11:26 941

原创人工智能图像识别应用基础（图像分类）

在当今的技术背景下，图像分类_已经成为了计算机视觉领域中一个至关重要的研究方向。图像分类是计算机视觉中的一个基本任务，旨在将输入图像分配到一个或多个类别中。通过_卷积神经网络 (CNN)_ 等算法，图像分类可以在许多领域中得到应用，如医疗诊断、自动驾驶和社交媒体等。

2025-02-28 14:07:24 1259

原创人工智能图像识别应用基础（Pythorch数据处理工具箱）

一、简介前面讲到了Pytorch神经网络工具箱，让我们大概了解了神经网络的组成、工作流程、构建的主要工具、以及对两种工具的举例说明，今天主要讲Pytorch数据处理工具箱，来更深一步的了解pytorch。pytorch的安装在这里不过多说明，只简要说明步骤和注意事项（我踩过的坑）。

2025-02-28 01:31:44 939

原创人工智能图像识别基础（Pytorch神经网络工具箱）

继承nn.Module基类构建模型2、使用nn.Sequential按层顺序构建模型1.利用可变参数（左侧为代码右侧为运行结果）注意：该方法构建时不能给每个层指定名称,如果需要给每个层指定名称，可使用add_module方法或OrderedDict方法。2.使用add_module方法（左侧为代码右侧为运行结果）3.使用OrderedDict方法（左侧为代码右侧为运行结果）3、继承nn.Module基类并应用模型容器构建模型1.使用nn.Sequential模型容器（左侧为代码右侧为运行结果）

2025-02-24 17:20:26 645

原创人工智能图像识别应用基础（卷积神经网络）

AlexNet的架构与LeNet相似，但使⽤了更多的卷积层和更多的参数来拟合大规模的ImageNet数据集。今天，AlexNet已经被更有效的架构所超越，但它是从浅层⽹络到深层网络的关键一步。新加入了、最大池化层和数据增强。

2025-02-20 16:20:24 1099

原创人工智能图像识别基础（多层感知机）

感知机模型(Perceptron Model)也叫做神经元模型，设计灵感即来自于生物神经元的运行机制，依次完成信息接收、处理、输出的过程。当前大放异彩的各种人工神经网络模型即由一个个人工神经元构成，因此，本文的感知机模型（神经元模型）就是各种神经网络模型的基本单元。

2025-02-19 22:42:07 696

原创人工智能图像识别应用基础（番外篇）

在完全图灵测试中，可以包含必要的人机在物理层面上的交互。挑战在于让计算机确定它是否正在与人类或其他计算机互动，这是图灵试图回答的原始问题的延伸，但能够提供足够高的标准以通常所认为人类特有的方式来定义一台可以“思考”的机器。该测试的流程是，一名测试者写下自己的问题，随后将问题以纯文本的形式（如计算机屏幕和键盘）发送给另一个房间中的一个人与一台机器。（underfitting）则是模型在训练集上就不能获得足够低的误差，表现差，这通常是由于模型过于简单，特征量不足，无法学习数据背后的规律。

2025-02-18 15:19:11 562

原创人工智能图像识别基础（机器学习篇）

（1）从一个随机初始化参数的模型开始，这个模型基本没有“智能”；（2）获取一些数据样本（例如，音频片段以及对应的是或否标签）；（3）调整参数，使模型在这些样本中表现得更好；（4）重复第（2）步和第（3）步，直到模型在任务中的表现令⼈满意。

2025-02-18 15:08:15 796

原创人工智能图像识别应用基础（介绍篇）

• 1956 年,达特茅斯会议建议书：制造一台机器该机器能模拟学习或者智能的所有方面,只要这些方面可以精确论述。• 1975年,人工智能专家 Minsky：人工智能是一门学科,是使机器做那些人需要通过智能来做的事情• 1985 年,人工智能专家 Haugeland：人工智能是计算机能够思维,使机器具有智的新尝试。• 1991 年,人工智能专家 Rich Knight：人工智能是研究如何让计算机做现阶段只有人才能做得好的事情。

2025-02-17 17:38:18 405

weixin_64304787的博客