罗婕斯特-优快云博客

任务提交后，ResourceManager启动ApplicationMaster，后者申请资源并启动Executor。Spark将作业拆分为多个Stage，以DAG形式表示任务依赖关系，避免循环依赖，优化执行顺序。Master：资源调度管理者（类似YARN的ResourceManager），负责分配集群资源。角色：Spark作业的“大脑”，负责解析用户代码、生成任务并调度执行。-集群中同时执行的任务数量，可通过配置动态调整，直接影响作业效率。Worker：集群中的物理节点，执行Master分配的任务。

2025-04-09 17:51:11 529

原创大数据技术与Scala

dequeue：移除并返回队首元素。enqueue：添加元素到队尾。通过条件筛选集合元素，返回新集合。先映射后展平，常用于拆分字符串。按规则将元素分组为Map结构。目标: 统计单词频率并取前三名。对每个元素应用函数，生成新集集合。带初始值的归约，适合复杂聚合操作。WordCount 案例实现。特点: 先进先出（FIFO）将嵌套集合展平为单层集合。队列（Queue）操作。

2025-04-08 10:44:56 303

原创大数据技术之Scala

默认情况下， Scala 使用的是不可变集合，如果你想使用可变集合，需要引用。元组也是可以理解为一个容器，可以存放各种相同或不同类型的数据。基于函数的排序，通过一个 comparator 函数，实现自定义排序的逻辑。说明：二维数组中有三个一维数组，每个一维数组中有四个元素。对一个集合进行自然排序，通过传递隐式的Ordering。Scala 中的 Map 和 Java 类似，对一个属性或多个属性进行排序，通过它的类型。是将多个无关的数据封装为一个整体，称为。，它存储的内容也是键值对（

2025-04-07 17:07:57 217

原创大数据技术之Scala

在 Java 中，访问权限分为：public，private，protected 和默认。在 Scala 中，你可以通过类似的修饰符达到同样的效果。），包名用“.”进行分隔以表示包的层级关系，如com.zpark.scala。Scala 有两种包的管理风格，一种方式和 Java 的包管理风格相同，每个源文件一个包（Scala 的面向对象思想和 Java 的面向对象思想和概念是一致的。类：可以看成一个模板对象：表示具体的事物。增加包访问权限，包名下的其他类也可以使用。的包对象，定义在包对象中的成员，作为其。

2025-04-02 16:45:40 886

原创大数据技术之Scala

解决问题时，将问题分解成一个一个的步骤，将每个步骤进行封装（函数），通过调用这些封装好的步骤，解决问题。解决问题，分解对象，行为，属性，然后通过对象的关系以及行为的调用来解决问题。语言是一个完全函数式编程语言。函数的本质：函数可以当做一个值进行传递。语言是一个完全面向对象编程语言。万物皆对象对象的本质：对数据和行为的一个封装。例如：请求->用户名、密码->连接 JDBC->读取数据库。在Scala 中函数式编程和面向对象编程完美融合在一起了。行为：登录、连接 JDBC、读取数据库属性：用户名、密码。

2025-04-01 10:59:19 232

原创大数据技术之Scala

if i!= 2)需求：输出 1 到 5 中，不等于 3 的值= 3) {张三丰")by 2说明：by 表示步长需求：输出 1 到 10 以内的所有奇数by输出结果i=9for(i <- 1to3;j <- 1to说明：没有关键字，所以范围后一定要加；来隔断逻辑上面的代码等价;j = 4 - i。

2025-03-31 16:55:30 875

原创 Scala中while和for循环

While循环= ' ') {index += 1For循环sum += i。

2025-03-28 11:24:53 307

原创 Scala基础语法和简介

你可以在"之间使用任何有效的 Scala 标志符，Scala 将它们解释为一个 Scala 标志符，一个典型的使用为 Thread 的 yield 方法，在 Scala 中你不能使用 Thread.yield()是因为 yield 为 Scala 中的关键字，你必须使用 Thread.`yield`()来使用这个方法。泛型类，协变和逆变，标注，类型参数的上下限约束，把类别和抽象类型作为对象成员，复合类型，引用自己时显式指定类型，视图，多态方法。·方法 -方法描述的基本的行为，一个类可以包含多个方法。

2025-03-27 10:48:43 440

空空如也

空空如也