这次 我们以指定executor-memory参数的方式来启动spark-shell:
启动成功了
在命令行中我们指定了spark-shell运行暂用的每个机器上的executor的内存为1g大小,启动成功后参看web页面:
从hdfs上读取文件:
在命令行中返回的MappedRDD,使用toDebugString,可以查看其lineage的关系:
可以看出MappedRDD是从HadoopRDD转换而来的
再看下textFile的源代码:
hadoopFile这个方法返回的是一个HadoopRDD,源码如下所示:
而map方法产生的是一个MappedRDD:
下面进行一个简单的wordcount操作:
执行结果:
再次使用toDebugString,查看下依赖关系:
HadoopRDD -> MappedRDD -> FlatMappedRDD -> MappedRDD -> ShuffledRDD
本文介绍了如何通过指定executor-memory参数来启动Spark Shell,并演示了一个简单的WordCount操作流程。通过命令行指定了每个executor的内存为1GB,在成功启动后通过web页面查看状态。文章还展示了如何从HDFS读取文件并使用toDebugString方法查看RDD之间的依赖关系。
1345

被折叠的 条评论
为什么被折叠?



