spark踩坑记

原创已于 2022-08-23 11:01:41 修改 · 1.9k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #hive

于 2022-08-23 10:59:04 首次发布

本文介绍了SparkSQL在处理Parquet和ORC格式的Hive表时遇到的问题。对于Parquet表，Spark会缓存元数据导致新插入数据不可见，解决方法是在查询前使用`REFRESH TABLE`更新元数据。而对于ORC表，当使用tez引擎并进行特定操作后，数据路径异常，通过设置`spark.sql.hive.convertMetastoreOrc=false`可解决问题。这两个解决方案确保了SparkSQL能正确读取Hive表的最新数据。

1.由于spark存在一个机制，为了提高性能，会缓存parquet的元数据信息。当通过hive或其他方式更新了parquet表时，缓存的元数据信息未更新，导致SparkSQL查询不到新插入的数据。解决措施：在使用sparkSQL查询之前，需执行refresh操作更新元数据信息。

spark.sql("REFRESH TABLE tableName")
或
spark.Catalog.refreshTable("tableName")

2.对于部分orc格式的hive表，会有spark sql读取表数据为空的情况。排查过程中发现是因为使用了tez作为hive的执行引擎，然后执行insert select union all 时，对应的hdfs数据路径，不是直接存放数据文件，而是先有子目录HIVE_UNION_SUBDIR_x，子目录下再存放数据文件。解决方案：

查看spark官方文档，找到一个参数

设置参数：spark.sql.hive.convertMetastoreOrc=false

问题得到解决

代码设置参数：spark.sql("set spark.sql.hive.convertMetastoreOrc=false")
            spark.sql("set spark.sql.hive.convertMetastoreParquet=false")