Scala代码实现列出Hadoop 文件夹下面的所有文件

最新推荐文章于 2024-05-28 10:55:52 发布

weixin_33973600

最新推荐文章于 2024-05-28 10:55:52 发布

阅读量366

点赞数

CC 4.0 BY-SA版权

文章标签：大数据 scala python

原文链接：https://my.oschina.net/duanfangwei/blog/544240

本文介绍了一个使用Java实现的递归方法，用于在Hadoop文件系统中遍历指定目录下的所有文件及子目录，并打印出每个文件的完整路径。适用于Hadoop环境下文件管理与数据收集的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2019独角兽企业重金招聘Python工程师标准>>>

列出Hadoop文件夹下面的所有文件，如果子文件是一个文件夹，则递归列出里面的文件，返回一个Path数组。

import java.io.IOException
import org.apache.hadoop.fs.{FileSystem, FileStatus, Path}
import org.apache.hadoop.conf.Configuration

object FullFile {


  @throws[IOException]
  def recursiveListFiles(status :FileStatus,  fs: FileSystem): Array[Path] = {
    var fileArray = Array[Path]()
    val inputPath = new Path(status.getPath.toString)
    val fs = inputPath.getFileSystem(new Configuration())
    val statuses = fs.listStatus(inputPath)
    for (s <- statuses) {
      if (s.isDirectory) {
        fileArray = fileArray ++: recursiveListFiles(s, fs)
      } else if (s.isFile) {
        fileArray = fileArray :+ s.getPath
      }
    }
    for (f <- fileArray) {println(f.toString)}
    fileArray
  }

  def main(args: Array[String]) {
    val conf = new Configuration()
    val fs = FileSystem.get(conf)
    val fileStatus = fs.getFileStatus(new Path(args(0)))
     recursiveListFiles(fileStatus,fs)

  }
}

转载于:https://my.oschina.net/duanfangwei/blog/544240