情况说明:数据以parquet文件形式保存在HDFS上,数据中的某一列包含了日期(例如:2017-12-12)属性,根据日期对数据分区存储,如下图所示:
项目需求:
在项目中想要读取某一个月的数据,肿么办?
解决方法:
spark中读取本地文件的方法如下:
sparkSession.read.parquet("hdfs://path")
方法一:
要读取多个文件,文件的路径中有一段公共路径。这样,首先想到的方法就是通过通配符来读取多个文件,对应的代码如下:
sparkSession.read.parquet("hdfs://hzgc:9000/user/hive/warehouse/person_table/date=2017-12-*&