Spark 相关知识点学习笔记

最新推荐文章于 2024-07-31 13:16:03 发布

xinxin_sunshine

最新推荐文章于 2024-07-31 13:16:03 发布

阅读量188

点赞数

CC 4.0 BY-SA版权

分类专栏：笔记文章标签： Spark

本文链接：https://blog.youkuaiyun.com/xinxin_sunshine/article/details/82878543

笔记专栏收录该内容

9 篇文章

订阅专栏

本文介绍了Spark主要编程抽象RDD，即弹性分布式数据集，它可分布在多节点并行操作。还给出Java中初始化Spark的代码，阐述RDD支持转化和行动两种操作，二者计算方式不同，Spark惰性计算RDD，且可使用persist()方法缓存RDD。

RDD （resilient distributed dataset），弹性分布式数据集，表示分布在多个计算节点上可以并行操作的元素集合，是spark主要的编程抽象。

Spark的各个组件如下图：

Java中初始化Spark:

SparkConf conf = new SparkConf().setMaster(URL).setAppName("name");

JavaSparkContext sc = new JavaSparkContext(conf);

RDD支持两种操作：转化操作和行动操作。

转化操作会由一个RDD生成一个新的RDD。

行动操作会对RDD计算出一个结果，并把结果返回到驱动器程序中，或者把结果存储到外部存储系统中。

两种操作的区别在于Spark计算RDD的方式不同。你可以在任何时候定义一个新的RDD，但是Spark只会惰性计算这些RDD。只有第一次在一个行动操作中用到时，才会真正计算。

RDD.persist()可以用来让spark把这个RDD缓存下来，持久化后方便重复对该RDD进行计算

下图来解释map() 和 flatMap() 的区别,一目了然:

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xinxin_sunshine

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark 重要概念及相关知识点

qq_39712666的博客

09-22

373

看到这里，恭喜你，结束了分布式存储模块的内容，愿此刻你已经把前面的章节都看透了，但是即便如此也还是不要松懈，接下来还有一个大模块的内容。因为大数据的技术基本都是计算与存储分离，各司其职，所以我们需要继续来看分布式计算模块的内容，让我们大数据面试的知识点更加完善。第一篇写的是分布式计算界的中流砥柱，Spark。Spark 在实现上和 MapReduce 计算框架类似，但是它在内存的使用上更“贪婪”...

Spark知识点总结大全

weixin_70137450的博客

09-17

2223

aggregateByKey:在kv对的RDD中，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出。一个函数一次处理所有分区。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。

参与评论您还未登录，请先登录后发表或查看评论

Spark知识点

MaynyWoody的博客

07-13

829

1.Spark架构分布式spark应用中的组件在分布式环境下，Spark集群采用的是主/从结构。在一个Spark集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（Driver）节点。与之对应的工作节点被称为执行器（executor）节点。驱动器节点可以和大量的执行器节点进行通信，它们也都作为独立的Java进行运行。驱动器节点和所有的执行...

Spark相关知识点（一）

雪泪寒的博客

08-29

262

spark工作机制，哪些角色，作用。 spark yarn模式下的cluster模式和client模式有什么区别。

spark 相关的知识点

Chelseady的博客

08-01

385

1.map 和flatmap的区别 map的作用就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。 flatMap的操作是将函数应用于rdd之中的每一个元素，将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象；而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：例如：比如一个...

Spark学习笔记 Spark学习笔记 Spark学习笔记

08-07

Spark 学习笔记 Spark 是一个基于内存的分布式计算框架，它提供了高效、灵活、可扩展的数据处理解决方案。Spark 的核心组件是 Resilient Distributed Dataset (RDD)，它是一个弹性的分布式数据集合，提供了高效的...

Spark大数据处理学习笔记

09-18

本篇笔记主要涵盖了 Spark 大数据处理的学习笔记，包括了 Spark Standalone 集群的搭建、RDD 的创建和算子、RDD 的分区、RDD 典型案例、IDEA 开发词频统计项目等方面的知识点。一、Spark Standalone 集群的搭建 *...

Spark学习笔记

03-15

### Spark学习笔记知识点详解 #### 一、Scala基础概述 **1.1 什么是Scala** Scala是一种现代化的、多范式的编程语言，旨在融合面向对象编程与函数式编程的优势。它运行于Java平台上，能够充分利用Java虚拟机(JVM)...

大数据技术综合笔记-涵盖Hadoop、Spark、Storm等框架的核心知识点

最新发布

11-08

内容概要：本文档涵盖了大数据领域的核心知识点，主要包括Hadoop生态系统、MapReduce、YARN、Spark、Zookeeper、Hbase、Hive等组件的技术介绍和原理剖析。文档详细解释了各个框架的功能和使用方法，探讨了HDFS、...

spark相关知识点

F_fighting117的博客

09-03

287

spark知识点整合

bai10161206的博客

05-15

919

数组是Scala中常用的一种数据结构，数组是一种存储了相同类型元素的固定大小的顺序集合，# 第1种方式# 第2种方式var arr:Array[String] = Array(元素1,元素2,…)2.2数组的常用方法方法描述length返回数组的长度head查看数组的第一个元素tail查看数组中除了第一个元素外的其他元素isEmpty判断数组是否为空判断数组是否包含元素x函数是Scala的重要组成部分，Scala作为支持函数式编程的语言，可以将函数作为对象.

MapReduce的优缺点是什么？

jakelihua

09-12

1343

它将数据处理过程分为两个主要阶段：Map阶段和Reduce阶段。在Map阶段，数据被分割为多个小块，并由多个并行运行的Mapper进行处理。在Reduce阶段，Mapper的输出被合并和排序，并由多个并行运行的Reducer进行最终的聚合和计算。综上所述，MapReduce是一种适用于大规模数据处理的编程模型和计算框架，具有可伸缩性、容错性、灵活性和易用性等优点。然而，它在实时计算和交互式查询等场景下的适用性有限，同时开发和调试MapReduce作业的复杂性也需要考虑。

大数据知识总结（七）：Spark重要知识汇总

Lansonli（蓝深李）的博客

07-31

9118

Spark Core（实现了 Spark 的基本功能，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。数据结构：RDD）Spark SQL（可以使用 SQL操作数据。数据结构：Dataset/DataFrame = RDD + Schema）（用来操作数据流的 API。数据结构：DStream = Seq[RDD]）（提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。数据结构：RDD或者DataFrame）

Spark基础知识(个人总结)

hellosrc的博客

12-18

5692

声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识内容详细全面, 言辞官方的文章 2. 由于是个人总结, 所以用最精简的话语来写文章

Spark知识点全总结

Poolweet_的博客

09-09

3633

1.spark生态： Spark Core spark 的核心计算，用于通用分布式数据处理的引擎。不依赖于任何其他组件，可以运行在任何商用服务器集群上。实现饿了 Spark 的基本功能，包含任务调度、内存管理、错误恢复，与存储系统交互等模块。还包含了对弹性分布式数据集（Resilient Distributed Dataset，简称RDD）的API 定义。 Spark SQL 是Spark用来操作结构化数据的程序包，可以使用SQL或者HQL来对历史数据做交互式查询（即席查询：用户根据自己的需求自定义

《Spark快速大数据分析》笔记Ch1、2

科研糖

09-06

1225

Spark快速大数据分析-Spark数据分析导论、Spark下载与入门。

Spark知识点总结

背着梦的幸存者

11-02

6953

文章目录1、介绍Spark2、RDD（弹性分布式数据集）（重点）3、Spark在集群中大概运行流程4、提交Application的方式5、搭建及测试集群 1、介绍Spark 2、RDD 3、提交方式 4、搭建集群 5、资源调度 6、任务调度 7、任务调度+资源调度

Spark基础知识点儿汇总

StoneWords的博客

04-13

2103

*spark的理解spark是一个快速的、统一的大规模数据处理引擎它是基于内存计算的它的特点是：快速、易用、适用于各种数据处理场景（批处理、流处理、交互式处理）、它可以运行在多种分布式计算框架中，如yarn和mesos等*spark的架构Master spark计算集群的主节点，负责接收客户端提交来的spark job，并且负责work节点的资源申请和资源调配，在程序运行时，对各个子节点的状...

深度解析Spark技术与机器学习应用笔记

这些知识点概括了Spark框架的主要内容，从基础的部署、开发到复杂的数据处理、机器学习和大数据分析，为IT专业人士提供了学习的方向和重点。而文件的名称列表"Spark资料"则表明了压缩包子文件中包含的应当是与Spark...