spark 应用程序访问hive异常问题

在本地开发Spark应用程序时遇到访问Hive异常,由于/hive目录权限不足导致报错。错误源于默认的HDFS路径权限不匹配。为解决此问题,需要修改HDFS上/hive目录的权限,使其满足writableHDFSDirPermission的要求。通过设置正确权限后,重新启动Spark程序,问题得到解决。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

开发spark应用程序在本地启动时,报异常

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writable. Current permissions are: rwx------
    at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)
    at org.apache.spark.sql.hive.client.ClientWrapper.<init>(ClientWrapper.scala:204)
    at org.apache.spark.sql.hive.client.IsolatedClientLoader.createClient(IsolatedClientLoader.scala:238)
    at org.apache.spark.sql.hive.HiveContext.executionHive$lzycompute(HiveContext.scala:218)
    at org.apache.spark.sql.hive.HiveContext.executionHive(HiveContext.scala:208)
    at org.apache.spark.sql.hive.HiveContext.functionRegistry$lzycompute(HiveContext.scala:462)
    at org.apache.spark.sql.hive.HiveContext.functionRegistry(HiveContext.scala:461)
   &n

### Spark 2.4.5 安装与 Hive 集成教程 #### 准备工作 在开始之前,需确认已安装好 Java、Scala 和 Hadoop 的运行环境。此外,还需要准备以下组件版本: - **Java**: 推荐 JDK 8 或更高版本。 - **Hadoop**: 版本应兼容 Spark 2.4.5(推荐 Hadoop 3.x)[^2]。 - **MySQL**: 用于存储 Hive 元数据。 --- #### 环境配置 1. **下载并解压 Spark** 下载 Spark 2.4.5 并将其解压缩到指定目录下。例如 `/opt/module/spark`。 ```bash wget https://archive.apache.org/dist/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /opt/module/ ``` 2. **设置 Spark 环境变量** 修改 `/etc/profile` 文件,添加如下内容: ```bash export SPARK_HOME=/opt/module/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin ``` 加载环境变量: ```bash source /etc/profile ``` 3. **配置 MySQL 数据库** 创建数据库 `hive_metastore` 并授权访问权限。执行以下命令创建表结构文件所需的用户和密码: ```sql CREATE DATABASE hive_metastore; GRANT ALL PRIVILEGES ON hive_metastore.* TO 'hive'@'%' IDENTIFIED BY 'password'; FLUSH PRIVILEGES; ``` 4. **安装 Hive** 将 Hive 解压至目标路径(如 `/opt/module/hive`),并完成基础配置。编辑 `hive-site.xml` 文件,添加以下内容以连接 MySQL 存储元数据: ```xml <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive_metastore?createDatabaseIfNotExist=true&useSSL=false</value> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.cj.jdbc.Driver</value> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>password</value> </property> ``` 同时,在 `$HIVE_HOME/conf/` 中放置 MySQL JDBC 驱动程序(`mysql-connector-java.jar`)。如果未提供该驱动,则需要手动下载并复制到此位置。 5. **初始化 Metastore** 使用以下命令启动 Hive 初始化脚本来构建必要的表结构: ```bash schematool -dbType mysql -initSchema ``` --- #### 配置 Spark 支持 Hive 为了使 Spark 能够读取 Hive 表中的数据,需要调整 Spark 的配置文件以及加载 Hive 的依赖项。 1. **修改 Spark 配置** 编辑 `$SPARK_HOME/conf/spark-defaults.conf` 文件,加入以下参数来启用 Hive 支持: ```properties spark.sql.catalogImplementation=hive spark.hadoop.hive.metastore.uris=thrift://<hostname>:9083 ``` 如果启用了 Kerberos 认证或其他安全机制,请根据实际情况补充更多选项。 2. **将 Hive JAR 包引入 Spark Classpath** 把 Hive 的核心类库拷贝到 Spark 的 lib 目录下或者通过 `--jars` 参数显式传递给应用程序实例化时使用。通常情况下,默认已经包含了这些必需的 jar 文件;但如果遇到缺失错误提示,则可以尝试重新导入它们。 3. **验证集成效果** 运行简单的测试查询操作检验两者之间交互是否正常运作。比如打开 shell 终端输入下面语句查看是否有对应的结果返回: ```scala val df = spark.read.table("your_hive_table_name") df.show() ``` --- #### 常见问题排查 - 若发现无法识别某些特定类型的分区字段或是其他异常情况发生时,可能是因为版本不匹配引起的问题。建议仔细核对各个软件间的相互依存关系后再做相应升级处理。 - 当前文档仅适用于离线批处理场景下的简单演示用途。对于生产环境中涉及高并发请求负载均衡等方面还有许多额外考量因素待解决。 ```python from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName('TestApp').setMaster('local[*]') sc = SparkContext(conf=conf) sqlCtx = SQLContext(sc) df = sqlCtx.sql("SELECT * FROM your_hive_table LIMIT 10") df.collect() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值