由于工作需要,我用scala实现在已将有的目录下面继续写入文件。需要重写MultipleTextOutputFormat这个类,具体的请看下面代码,需要交流可以联系我
import java.text.SimpleDateFormat
import java.util.Date
import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.hadoop.mapred.{InvalidJobConfException, JobConf}
import org.apache.hadoop.mapreduce.security.TokenCache
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.spark.rdd.RDD;
/**
* 在HDFS目录下继续追加文件,不会覆盖以前的文件
* Created by csw on 2017/6/23.
*/
object MultipleTextOutput {
def main(args: Array[String]) {
val filePath = "hdfs://master:9000/csw/tmp/data";
val savePath = "hdfs://master:9000/hxzj/mydata/tatol";
val conf = new SparkConf().setAppName("Spark shell")
val sc = new SparkContext(conf)
//读取文件后