spark 使用外部hive遇到的问题

当Hive使用Tez引擎作为执行器时,在Spark中使用外部Hive可能遇到找不到Tez相关包的问题。解决方案是注释掉hive-site.xml中的Tez配置,或将其改为MR引擎。

当hive使用tez引擎作为执行器的时候,在spark使用外部hive的时候,默认是把hive-site.xml直接拷贝到spark的conf目录下

如果直接运行这抛出异常:

找不到tez的相关包,直接将hive-site.xml的tez引擎注释,或者改为mr引擎即可

### 部署 Spark 并与 Hive 建立连接 为了成功配置并运行 Spark 以访问 Hive 数据库,需遵循特定的设置流程。当使用 Hive on Spark 功能时,需要注意官方文档指出必须采用未捆绑 Hive JAR 文件版本的 Spark 版本[^1]。 #### 下载和编译无 Hive 支持的 Spark 版本 由于预构建的 Spark 发行版通常已集成了 Hive 组件,这可能引发冲突或兼容性问题。因此建议从 Apache 官方网站获取 Spark 源代码自行编译,在此过程中排除掉对 Hive 的默认支持选项,从而获得纯净环境下的 Spark 实例用于后续操作。 #### 解决 `org.apache.spark.sql.hive.HiveContext` 错误 如果遇到类似于 `object hive is not a member of package org.apache.spark.sql` 这样的错误消息,则表明当前使用Spark 构建并不具备内置的 Hive 支持功能。对于此类情况的一个解决方案是在项目中显式引入外部依赖项来弥补缺失的功能模块;例如通过 Maven 或 SBT 添加如下所示的依赖声明到应用程序的构建文件里: ```xml <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-hive_2.12</artifactId> <version>3.1.3</version> </dependency> ``` 上述 XML 片段适用于基于 Scala 2.12 编写的 Spark 应用程序,并指定了具体版本号以便更好地匹配其他组件之间的协作关系[^3]。 #### Windows 环境特殊处理 针对 Windows 用户而言,除了以上提到的一般性指导外还需要额外准备一些辅助工具如 winutils.exe 和 hadoop.dll 来模拟 Hadoop 生态系统的部分行为模式。这些二进制文件应当被放置于本地安装路径中的适当位置(通常是 `%HADOOP_HOME%\bin\`),以此确保整个集群能够正常运作而不受操作系统差异的影响[^4]。 #### 测试连接 完成前述准备工作之后就可以尝试启动 Spark Shell 并执行简单的查询语句验证是否已经成功建立了同 Hive 表结构间的交互能力了。此时应该可以直接利用 DataFrame API 对目标表实施各种 DDL/DML 操作而无需担心任何潜在障碍的存在。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值