通过HdfsApi读取hdfs的文件夹下的多个文件

通过hdfsApi,读取某一个文件夹下的多个文件

val conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://ip:9000")
val fs: FileSystem = FileSystem.get(conf);
//读取dataCenter文件夹下的文件
var inputPath = new Path("/user/dataCenter/")
//获取到dataCenter下所有文件的状态
//这里不能直接用open(path),会报错:大概意思就是dataCenter是个文件夹,不是文件
//此种只能用于文件夹下都是文件,不存在文件嵌套的情况,若存在,需要调用listFiles方法
val fileStatus: Array[FileStatus] = fs.listStatus(inputPath)

//若存在文件夹的嵌套,调用下面这行代码,
//true:递归地遍历子目录
//val value: RemoteIterator[LocatedFileStatus] = fs.listFiles(new Path(inputPath),true)


//新建一个StringBuffer,存放文件内容(用来测试小量文件)
//val buffer: StringBuffer = new StringBuffer
var break = new Breaks
//这里创建一个文件流集合,存放所有的要读取的文件
val inputStreamlist: ListBuffer[FSDataInputStream] = ListBuffer[FSDataInputStream]()

for (elem <- fileStatus) {
      break.breakable({
      	//只要以part开头的文件
        if (!elem.getPath.getName.startsWith("part-")) {
          break.break();
        }
        val input: FSDataInputStream = fs.open(elem.getPath)
        inputStreamlist += input;
      })
    }

### 使用Pandas读取文件夹中的多个CSV文件 为了处理位于同一目录下的多个CSV文件,可以编写一段Python脚本来遍历该目录并逐个加载这些文件到Pandas DataFrame中。下面是一个具体的实现方法: ```python import os import glob import pandas as pd def load_multiple_csv_files(folder_path): all_files = glob.glob(os.path.join(folder_path , "*.csv")) df_list = [] for filename in all_files: df = pd.read_csv(filename, index_col=None, header=0) df_list.append(df) big_df = pd.concat(df_list, axis=0, ignore_index=True) return big_df ``` 此函数`load_multiple_csv_files()`接受一个参数`folder_path`表示存储CSV文件文件夹路径[^1]。 通过使用`glob`模块来匹配指定模式的所有文件名,在这里是指定目录下所有的`.csv`文件。对于找到的每一个CSV文件,都调用一次`pd.read_csv()`将其转换成DataFrame对象,并追加至列表`df_list`之中。最后利用`pd.concat()`沿着垂直方向连接这个列表里的所有数据框成为一个大型的数据集`big_df`返回给调用者。 当面对的是HDFS上的分布式文件系统时,则可能需要用到Spark框架所提供的API来进行操作,例如可以通过如下方式获取特定前缀命名的一系列CSV文档的内容[^2]: ```python from pyspark import SparkContext sc = SparkContext() distFile = sc.textFile("/hdfs/path/to/folder/fixed_file_name_*.csv") ``` 然而这超出了单纯依靠Pandas库所能完成的任务范围;如果仅限于本地环境的话,上述基于Pandas的方式已经足够满足需求了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值