超帅的好吧-优快云博客

原创 Scala

➢ 分布式：数据存储在大数据集群不同节点上➢ 数据集：RDD 封装了计算逻辑，并不保存数据➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑➢ 可分区、并行计算核心属性➢ 分区列表RDD 数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。➢ RDD 之间的依赖关系RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系。

2025-04-16 16:35:33 477

原创 Scala

第二章 Spark Core第八节 Spark-Core编程（四）Key-Value类型：17) partitionBy➢ 函数签名def partitionBy(partitioner: Partitioner): RDD[(K, V)]➢ 函数说明将数据按照指定 Partitioner 重新进行分区。从功能的角度：reduceByKey 其实包含分组和聚合的功能。GroupByKey 只能分组，不能聚合，所以在分组聚合的场合下，推荐使用 reduceByKey，如果仅仅是分组而不需要聚合。

2025-04-16 16:34:48 339

原创 Scala

第二章 Spark Core第九节 Spark-Core编程（五）RDD行动算子：行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。

2025-04-16 16:34:08 414

原创 Scala

第三章第八节 Spark-SQL核心编程（七）Spark-SQL连接HiveApache Hive 是 Hadoop 上的 SQL 引擎，Spark SQL 编译时可以包含 Hive 支持，也可以不包含。将hive-site.xml文件放入conf/当中；运行bin/目录下的spark-sql.cmd 或者打开cmd，在D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql可以直接运行SQL语句，如下所示：5）代码操作Hive1.导入依赖。

2025-04-16 16:33:32 835

原创 Scala

val user = User("zhangsan",11)，该语句在执行时，实际调用的是 User 伴生对象中的apply 方法，因此不用 new 关键字就能构造出相应的对象。当将 User("zhangsan", 11)写在 case 后时[case User("zhangsan", 11) => "yes"]，会默认调用 unapply 方法(对象提取器)，user 作为 unapply 方法的参数，unapply 方法将 user 对象的 name 和 age 属性提取出来，与User("zhang

2025-04-10 11:33:44 574

原创 Scala

Spark核心模块➢ Spark Core Spark Core 中提供了 Spark 最基础与最核心的功能，Spark 其他的功能如：Spark SQL，Spark Streaming，GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的 ➢ Spark SQL Spark SQL 是 Spark 用来操作结构化数据的组件。但是你也要记住，Spark 主要是计算框架，而不是资源调度框架，所以本身提供的资源调度并不是它的强项，所以还是和其他专业的资源调度框架集成会更靠谱一些。

2025-04-10 11:32:57 346

原创 scala

第二章 Spark Core第八节 Spark-Core编程（四）Key-Value类型：17) partitionBy➢ 函数签名def partitionBy(partitioner: Partitioner): RDD[(K, V)]➢ 函数说明将数据按照指定 Partitioner 重新进行分区。从功能的角度：reduceByKey 其实包含分组和聚合的功能。GroupByKey 只能分组，不能聚合，所以在分组聚合的场合下，推荐使用 reduceByKey，如果仅仅是分组而不需要聚合。

2025-04-10 11:32:13 386

原创 Scala

➢ 分布式：数据存储在大数据集群不同节点上➢ 数据集：RDD 封装了计算逻辑，并不保存数据➢ 数据抽象：RDD 是一个抽象类，需要子类具体实现➢ 不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑➢ 可分区、并行计算核心属性➢ 分区列表RDD 数据结构中存在分区列表，用于执行任务时并行计算，是实现分布式计算的重要属性。➢ RDD 之间的依赖关系RDD 是计算模型的封装，当需求中需要将多个计算模型进行组合时，就需要将多个 RDD 建立依赖关系。

2025-04-10 11:31:28 544

原创 Scala

默认情况下， Scala 使用的是不可变集合，如果你想使用可变集合，需要引用 scala.collection.mutable.Set。扁平化+映射注：flatMap 相当于先进行 map 操作，在进行 flatten 操作集合中的每个元素的子元素映射到某个函数并返回新集合。Scala 中的 Map 和 Java 类似，也是一个散列表，它存储的内容也是键值对（key-value）映射。Reduce 简化（归约）：通过指定的逻辑将集合中的数据进行聚合，从而减少数据，最终获取结果。

2025-04-07 16:51:58 884

原创 Scala

/（1）对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。==比较两个变量本身的值，即两个对象在内存中的首地址；（1）对于除号“/”，它的整数除和小数除是有区别的：整数之间做除法时，只保留整数部分而舍弃小数部分。// 测试：>、>=、<=、<、==、!（2）需求 2：Java 和Scala 中关于==的区别。<= 小于等于 4<=3 false。== 相等于 4==3 false。

2025-04-02 12:29:29 383

原创 Scala

4）Scala在设计时，马丁·奥德斯基是参考了Java的设计思想，可以说Scala是源于Java，同时马丁·奥德斯基也加入了自己的思想，将函数式编程语言的特点融合到JAVA中, 因此，对于学习过Java的同学，只要在学习Scala的过程中，搞清楚Scala和Java相同点和不同点，就可以快速的掌握Scala这门语言。2）Scala源代码（.scala）会被编译成Java字节码（.class），然后运行于JVM之上，并可以调用现有的Java类库，实现两种语言的无缝对接。

2025-03-31 16:20:33 764

原创 Scala

访问Scala官网http://www.scala-lang.org/下载Scala编译器安装包，目前最新版本是2.13.x，但是目前大多数的框架都是用2.11.x或者2.12.x编写开发的，Spark2.x使用的就是2.11.x，所以这里推荐2.11.x版本，下载scala-2.11.12.msi后点击下一步就可以了。Scala与Java的关系是非常紧密的，因为Scala是基于JVM（JAVA虚拟机）的一门编程语言。Any是abstract类，它是Scala类继承结构中最底层的。

2025-03-28 10:30:03 467

原创 Scala

你可以在"之间使用任何有效的 Scala 标志符，Scala 将它们解释为一个 Scala 标志符，一个典型的使用为 Thread 的 yield 方法，在 Scala 中你不能使用 Thread.yield()是因为 yield 为 Scala 中的关键字，你必须使用 Thread.`yield`()来使用这个方法。然而以"$"开头的标识符为保留的 Scala 编译器产生的标志符使用，应用程序应该避免使用"$"开始的标识符，以免造成冲突。例如：一只狗的状属性有：颜色，名字，行为有：叫、跑、吃等。

2025-03-27 13:20:12 1129

空空如也

空空如也