spark-yarn模式
–master yarn-cluster
(只需在spark-submit执行时,添加参数)速度慢:
提升cores数(提升并行执行的task);使用spark-rdd,textFile基于本地系统,linux系统,路径格式简介:
//hdfs单个文件夹
val onePath = "hdfs://100.38.101.2:9000//log/month=01/new1.txt"
//hdfs下所有的month文件夹下的所有txt文件(使用通配符*表示)
val monAllPath = "hdfs://100.38.101.2:9000//log/month=*/*.txt"
// hdfs两个文件夹month为10/09下的所有txt文件(使用","隔开)
val morePath="hdfs://100.38.101.2:9000//log/month=10/*.txt,hdfs://100.38.101.2:9000//log/month=09/*.txt"
//读取本地文件
val localPath = "D:/zling/test.txt"
//读取linux系统下文件
val liPath = "/root/zling/test.txt"
//读取路径下的文件
sc.textFile(onePath).map(line => {})
小编会不定时更新,欢迎大家来撩
本文介绍了 Spark 在 YARN 模式下的运行方式及如何通过调整参数来提高执行效率。详细讨论了如何指定 cores 数量以提升并行任务执行速度,并提供了在不同文件系统中读取数据的具体路径示例。
6173

被折叠的 条评论
为什么被折叠?



