spark 同时读取多个路径的方法

本文介绍了使用 Spark 进行数据读取的三种方法:1) 通过传入多个参数读取多个文件;2) 使用正则表达式匹配多个文件;3) 列出文件列表并读取。这些方法在大数据处理中非常实用,能够灵活处理大量分散的文件数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.传入多个参数

 val result = spark.read.text("hdfs://hdfs-name/user/aa.txt","hdfs://hdfs-name/test/bb.txt")

2.正则

val result = spark.read.text("hdfs://hdfs-name/user/*")

3.文件列表

val path = "hdfs://hdfs-name/user/*.txt" 
val path2 = "hdfs://hdfs-name/test/*.txt" 
val arrPath = Array(path, path2) 
val ds = spark.read.textFile(arrPath:_*)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值