情况说明:数据以parquet文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示:
项目需求:
在项目中想要读取某一个月的数据,肿么办?
解决方法:
spark中读取本地文件的方法如下:
sparkSession.read.parquet("hdfs://path")
方法一:
要读取多个文件,文件的路径中有一段公共路径。这样,首先想到的方法就是通过通配符来读取多个文件,对应的代码如下:
sparkSession.read.parquet("hdfs://hzgc:9000/user/hive/warehouse/person_table/date=2017-12-*")
理想是美好的,但是现实是残酷的,代码运行结果报错:

最低0.47元/天 解锁文章
602

被折叠的 条评论
为什么被折叠?



