Hive on Spark 异常记录

最新推荐文章于 2022-12-23 17:28:28 发布

此木Y

最新推荐文章于 2022-12-23 17:28:28 发布

阅读量1.5k

点赞数 2

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_43909382/article/details/108399614

最近在使用 hive on spark的时候遇到了一个错误：

java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.IntWritable
    at org.apache.hadoop.hive.serde2.objectinspector.primitive.WritableIntObjectInspector.get(WritableIntObjectInspector.java:36)

百思不得其解，最后在查阅相关资料（各种某度）的时候发现了问题，
有这么一个参数：spark.sql.hive.convertMetastoreParquet，默认设置是true, 它代表使用spark-sql内置的parquet的reader和writer(即进行反序列化和序列化),它具有更好地性能，如果设置为false，则代表使用 Hive的序列化方式。

但是有时候当其设置为true时，会出现使用hive查询表有数据，而使用spark查询为空的情况.

但是，有些情况下在将spark.sql.hive.convertMetastoreParquet设为false，就会发生上面出现的异常。

这是因为在其为false时候，是使用hive-metastore使用的元数据进行读取数据，而如果此表是使用spark sql DataSource创建的parquet表，其数据类型可能出现不一致的情况，例如通过metaStore读取到的是IntWritable类型，其创建了一个WritableIntObjectInspector用来解析数据，而实际上value是LongWritable类型，因此出现了类型转换异常。

还有一个与该参数相关的参数是：spark.sql.hive.convertMetastoreParquet.mergeSchema, 如果也是true，那么将会尝试合并各个parquet 文件的schema，以产生一个兼容所有parquet文件的schema。