spark:大数据处理引擎
特性:速度快、高性能、有向环图、代码可以运行在很多地方
生态栈
spark运行在hadoop之上 spark on yarn
standalone ==spark 集群
两种方式创建rdd
1.集合
val sparkConf = new SparkConf().setMaster("loval[2]").setAppName("SparkTest")
val data = Array(1,2,3,4,5)
val sc = new SparkContext(sparkConf)
val rdd = sc.parallelize(data)
rdd.collect().foreach(println)
2.读取外部数据源
val sparkConf = new SparkConf().setMaster("loval[2]").setAppName("SparkTest")
val sc = new SparkContext(sparkConf)
val rdd = sc.textFile("file:///d:/access.log")
rdd.collect().foreach(println)
3.rdd.map()
spark-shell提交
job:遇到一个动作(action)就是一个job