
Spark
文章平均质量分 91
糖糖Amor
这个作者很懒,什么都没留下…
展开
-
Spark5——SparkSQL
Spark5——SparkSQLSparkSQL相关概念DataFrameDataSetSparkSQL核心编程DataFrameDataSet三者的区别三者的相互转换用户自定义函数UDFUDAF数据的加载和保存通用的加载和保存方式SparkSQL相关概念DataFrame在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame所表示的二维表数据集原创 2022-05-26 11:41:52 · 639 阅读 · 1 评论 -
Spark4——核心编程
Spark3——核心编程核心编程累加器——分布式共享只写变量广播变量——**分布式共享只读变量**Spark案例实操Top10热门品类工程化代码——架构模式核心编程累加器——分布式共享只写变量实现原理累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量,在Executor 端的每个 Task 都会得到这个变量的一份新的副本,每个 task 更新这些副本的值后,传回 Driver 端进行 merge。 val rdd = sc.makeRD原创 2022-04-01 10:22:38 · 549 阅读 · 0 评论 -
Spark3——核心编程
Spark核心编程Spark核心编程行动算子序列化RDD依赖关系RDD持久化RDD分区器RDD文件读取与保存Spark核心编程行动算子(1)reduce聚集 RDD 中的所有元素,先聚合分区内数据,再聚合分区间数据。(2)collect在驱动程序中,以数组 Array 的形式返回数据集的所有元素。(3)count返回 RDD 中元素的个数。(4)first返回 RDD 中的第一个元素。(5)take返回一个由 RDD 的前 n 个元素组成的数组。(6)takeOrdered返回该原创 2022-04-01 10:21:55 · 1903 阅读 · 0 评论 -
Spark2——运行架构、核心编程
Spark2——运行架构、核心编程Spark运行架构运行框架核心组件核心概念提交流程Spark核心编程IO基本实现原理RDDRDD转换算子Value类型双Value类型Key-Value类型案例实操Spark运行架构运行框架Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。 如下图所示,它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master,负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责原创 2022-04-01 10:21:29 · 2173 阅读 · 0 评论 -
Spark1——运行环境配置
Spark1——运行环境配置Maven配置安装scala和Spark(Mac 环境)WordCount实现Spark运行环境Maven配置安装scala和Spark(Mac 环境)参考:https://blog.youkuaiyun.com/end_taotao/article/details/98450984安装scala插件,2.12.11版本(1)这里将/usr/local/scala-2.12.11下的scala解压包直接导入Project Structure。(2)在项目下Add Framew原创 2022-04-01 10:20:50 · 311 阅读 · 0 评论