代码
val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc: SparkContext = new SparkContext(conf)
val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
rdd.saveAsTextFile("output")
数据格式 :
当texfFile可以将文件作为数据处理的数据源,默认也有设定分区
minPartitions:最小分区数量
Spark文件读取与分区策略解析

Spark读取文件时,默认使用Hadoop的getSplits方法进行分区,分区数量受总字节数(totalSize)和目标分区大小(goalSize)影响。若文件大小为7字节,最小分区数设为2,实际会按字节比例计算产生3个分区,因为剩余数据超过10%时会创建新分区。
最低0.47元/天 解锁文章
1105

被折叠的 条评论
为什么被折叠?



