1.传入多个参数
val result = spark.read.text("hdfs://hdfs-name/user/aa.txt","hdfs://hdfs-name/test/bb.txt")
2.正则
val result = spark.read.text("hdfs://hdfs-name/user/*")
3.文件列表
val path = "hdfs://hdfs-name/user/*.txt"
val path2 = "hdfs://hdfs-name/test/*.txt"
val arrPath = Array(path, path2)
val ds = spark.read.textFile(arrPath:_*)
本文介绍了使用 Spark 进行数据读取的三种方法:1) 通过传入多个参数读取多个文件;2) 使用正则表达式匹配多个文件;3) 列出文件列表并读取。这些方法在大数据处理中非常实用,能够灵活处理大量分散的文件数据。
1989





