Spark计算结果继续追加在HDFS目录下，不会覆盖之前的文件

最新推荐文章于 2025-10-04 07:05:31 发布

原创

最新推荐文章于 2025-10-04 07:05:31 发布 · 7.1k 阅读

15 ·

CC 4.0 BY-SA版权

本文介绍如何使用Scala在已有HDFS目录下追加计算结果，避免覆盖原有文件，通过重写MultipleTextOutputFormat类实现。

由于工作需要，我用scala实现在已将有的目录下面继续写入文件。需要重写MultipleTextOutputFormat这个类，具体的请看下面代码，需要交流可以联系我

import java.text.SimpleDateFormat
import java.util.Date

import org.apache.hadoop.fs.{FileSystem, Path}
import org.apache.hadoop.mapred.lib.MultipleTextOutputFormat
import org.apache.hadoop.mapred.{InvalidJobConfException, JobConf}
import org.apache.hadoop.mapreduce.security.TokenCache
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
import org.apache.spark.rdd.RDD;


/**
  * 在HDFS目录下继续追加文件，不会覆盖以前的文件
  * Created by csw on 2017/6/23.
  */
object MultipleTextOutput {
  def main(args: Array[String]) {
    val filePath = "hdfs://master:9000/csw/tmp/data";
    val savePath = "hdfs://master:9000/hxzj/mydata/tatol";
    val conf = new SparkConf().setAppName("Spark shell")
    val sc = new SparkContext(conf)
    //读取文件后