Spark一次性读取指定目录下的所有子目录(嵌套)下的所有文件(pyspark语言为例子)
sc = spark.sparkContext
rdd = sc.textFile("/file/*/part-*")
举例:
当前目录:

每个目录下都有test.gz文件,那么一次性读取所有文件数据到rdd的代码如下:
if __name__ == '__main__':
spark = SparkSession.builder \
.master("local[2]") \
.appName("cal person")<

最低0.47元/天 解锁文章
689

被折叠的 条评论
为什么被折叠?



