Spark递归读取文件夹删除HDFS文件

最新推荐文章于 2023-03-13 17:44:43 发布

向阳飞行

最新推荐文章于 2023-03-13 17:44:43 发布

阅读量2.2k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

本文链接：https://blog.youkuaiyun.com/bigdataprimary/article/details/88061063

spark 专栏收录该内容

10 篇文章

订阅专栏

本文介绍如何在Spark中配置递归读取HDFS文件夹内的所有文件，并提供了一种方法来删除已存在的输出路径，确保数据处理流程的顺利进行。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取，删除输出路径的需求，特此记录一次

递归读取文件：

sc
 .hadoopConfiguration
 .setBoolean("mapreduce.input.fileinputformat.input.dir.recursive", true)

删除已存在的路径：

def deleteOutPutPath(sc: SparkContext,outputPath: String):Unit={
    val path = new Path(outputPath)
    val hadoopConf = sc.hadoopConfiguration
    val hdfs = org.apache.hadoop.fs.FileSystem.get(hadoopConf)
    if(hdfs.exists(path)){
      hdfs.delete(path,true)
    }
  }