spark sql 支持多级目录

最新推荐文章于 2024-08-29 14:12:36 发布

玉羽凌风

最新推荐文章于 2024-08-29 14:12:36 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏： HIVE 文章标签： spark sql

本文链接：https://blog.youkuaiyun.com/zhouyan8603/article/details/83413950

HIVE 专栏收录该内容

58 篇文章

订阅专栏

本文介绍如何在SparkSQL中启用对表分区下子目录的支持。通过在HiveCLI中设置或在代码中配置特定参数，可以使SparkSQL正确处理包含子目录的数据，确保数据查询的准确性和完整性。

当表的分区有子目录时，spark sql默认是不支持的，可以用以下设置:

在hive cli里直接set mapreduce.input.fileinputformat.input.dir.recursive=true;就可以正常使用spark sql引擎
在代码层面可以尝试
.set("spark.hive.mapred.supports.subdirectories","true")
.set("spark.hadoop.mapreduce.input.fileinputformat.input.dir.recursive","true")