【spark】编程代码，随笔记录

最新推荐文章于 2024-05-21 17:53:11 发布

原创最新推荐文章于 2024-05-21 17:53:11 发布 · 370 阅读

CC 4.0 BY-SA版权

文章标签：

11 篇文章

订阅专栏

本文介绍了 Spark 在 YARN 模式下的运行方式及如何通过调整参数来提高执行效率。详细讨论了如何指定 cores 数量以提升并行任务执行速度，并提供了在不同文件系统中读取数据的具体路径示例。

spark-yarn模式
–master yarn-cluster
（只需在spark-submit执行时，添加参数）
速度慢：
提升cores数（提升并行执行的task）；
使用spark-rdd，textFile基于本地系统，linux系统，路径格式简介：
//hdfs单个文件夹 val onePath = "hdfs://100.38.101.2:9000//log/month=01/new1.txt" //hdfs下所有的month文件夹下的所有txt文件（使用通配符*表示） val monAllPath = "hdfs://100.38.101.2:9000//log/month=*/*.txt" // hdfs两个文件夹month为10/09下的所有txt文件（使用","隔开） val morePath="hdfs://100.38.101.2:9000//log/month=10/*.txt,hdfs://100.38.101.2:9000//log/month=09/*.txt" //读取本地文件 val localPath = "D:/zling/test.txt" //读取linux系统下文件 val liPath = "/root/zling/test.txt" //读取路径下的文件 sc.textFile(onePath).map(line => {})