代码
val conf: SparkConf = new SparkConf().setMaster("local").setAppName("wordcount")
val sc: SparkContext = new SparkContext(conf)
val rdd: RDD[String] = sc.textFile("datas/1.txt",2)
rdd.saveAsTextFile("output")
数据格式 :
当texfFile可以将文件作为数据处理的数据源,默认也有设定分区
minPartitions:最小分区数量

Spark读取文件时,默认使用Hadoop的getSplits方法进行分区,分区数量受总字节数(totalSize)和目标分区大小(goalSize)影响。若文件大小为7字节,最小分区数设为2,实际会按字节比例计算产生3个分区,因为剩余数据超过10%时会创建新分区。
最低0.47元/天 解锁文章
3277

被折叠的 条评论
为什么被折叠?



