以常用的几行代码为例,从源码中详细解读Spark的运行流程。
算法代码在spark shell中如下:
(1)val lines = sc.textFile("README.md")
(2)val words = lines.flatMap(x => x.split(" "))
(3)val wordCounts = words.map(x => (x, 1))
(4)val cacheCounts = wordCounts.cache()
(5)val reduced = cacheCounts.reduceByKey((a, b) => a + b)
(6)reduced.saveAsTextFile("haha")
(未完待续)
本文通过一个简单的WordCount示例,详细解析了Spark的基本运行流程。从读取文件到执行reduceByKey操作并保存结果,每一步都对应着Spark的核心概念。
1113

被折叠的 条评论
为什么被折叠?



