记一次Hive元数据管理问题的处理过程

最新推荐文章于 2025-11-02 18:56:15 发布

原创

最新推荐文章于 2025-11-02 18:56:15 发布 · 4.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hive

在工作中遇到Hive元数据管理问题，通过SparkShell访问Hive时表消失并出现错误。问题根源在于Hive的默认配置文件hive-default.xml没有正确指定MySQL元数据存储，而使用了derby。解决方案是创建hive-site.xml并正确配置，使得Hive和Spark都能正确连接到MySQL元数据存储。

工作中需要在hive中存储数据，sparksql操作数据。按照网上的教程，将hive的conf目录下hive-default.xml拷贝到spark的conf目录下（当前hive下没有hive-site.xml，当时没有意识到这个会有问题），启动spark shell

./bin/spark-shell --master yarn-client --driver-class-path lib/mysql-connector-java-5.1.37.jar

至此一切正常，执行命令

sqlContext.sql("show tables").collect.foreach(println)，发现表都没有了

直接查询表数据，报如下类似错误：

INFO metastore.HiveMetaStore: 0: get_table : db=default tbl=my_table
16/12/02 11:41:43 INFO HiveMetaStore.audit: ugi=etl ip=unknown-ip-addr cmd=get_table : db=test tbl=mytable
Exception in thread "main" org.apache.spark.sql.AnalysisException: no such table mytable;