Spark基础知识

最新推荐文章于 2022-05-21 11:46:36 发布

转载最新推荐文章于 2022-05-21 11:46:36 发布 · 588 阅读

·

0

·

Spark 专栏收录该内容

3 篇文章

订阅专栏

本文揭示了Spark相较于Hadoop的三大优势：基于内存的快速处理、基于DAG的精细任务管理和就近计算策略。介绍了Spark的运行模式、DataFrame生成方式及关键操作。深入探讨了persist策略的选择和Scala的隐式转换。

Spark为什么比Hadoop快？

1、Spark基于内存
   Spark默认情况下将处理过程中的数据保存在内存中，而Hadoop的计算结果每次都保存到磁盘，增加了I/O读写的时间。这也导致在迭代计算时Spark速度愈发快于Hadoop。
2、Spark基于DAG
   Spark的执行任务事先已经通过DAG规划，任务管理更加精细化。
3、移动计算而非移动数据
   RDD的partitions就近读取节点上的数据进行计算。

Spark的运行模式有哪几种？

1、本地模式
2、Standalone
3、第三方资源调度框架（Yarn、Mesos）

生成DataFrame的方式有哪些？

1、从RDD转换为DataFrame
   （1）某一类的RDD转换为DataFrame
           val df = class_rdd.toDF
   （2）结构化的RDD转换为DataFrame
              val df = sparkSession.createDataFrame(row_rdd,schema)
2、从文件读取
   （1）parquet文件
          spark.read.load(path)
   （2）json文件
          spark.read.json(path)

Spark的操作有哪些？

transformation

Spark的persist如何选择？

选择persist

Spark中Scala的隐式转换

implicit conversion

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。