spark-core（1）

最新推荐文章于 2025-04-09 18:30:58 发布

一只考考拉

最新推荐文章于 2025-04-09 18:30:58 发布

阅读量167

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/weixin_38629422/article/details/87300038

spark 专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了Spark作为大数据处理引擎的特性，包括其速度、高性能及有向环图处理能力。介绍了Spark如何运行在Hadoop之上，并通过两种方式创建RDD，即从集合创建和读取外部数据源。此外，还解释了RDD的map操作和job的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

spark：大数据处理引擎
特性：速度快、高性能、有向环图、代码可以运行在很多地方
生态栈
spark运行在hadoop之上 spark on yarn
standalone ==spark 集群
两种方式创建rdd
1.集合

val sparkConf = new SparkConf().setMaster("loval[2]").setAppName("SparkTest")
val data = Array(1,2,3,4,5)
val sc = new SparkContext(sparkConf)
val rdd = sc.parallelize(data)
rdd.collect().foreach(println)

2.读取外部数据源

val sparkConf = new SparkConf().setMaster("loval[2]").setAppName("SparkTest")
val sc = new SparkContext(sparkConf)
val rdd = sc.textFile("file:///d:/access.log")
rdd.collect().foreach(println)

3.rdd.map()

spark-shell提交
job:遇到一个动作(action)就是一个job