前言
本文隶属于专栏《Spark异常问题汇总》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见 Spark异常问题汇总
正文
问题描述
pyspark 中 读取hive表,提示 hdfs 中的 nameservice 不识别
Caused by: java.net.UnknownHostException: gbigdata
问题补充
本地 跑 是好的,但是 到 jupyter 上就有问题
环境
配置的 python 环境是 anaconda3
定位思路
- 查一下core-site.xml里的fs.defaultFS属性

- 查一下 nn 端口配置和移动转移的配置
- 查一下hdfs-site.xml里的nameservice
- 查一下host配置映射,可能主机地址没有映射
- 用代码调试的时候,查一下上下文,配置文件加载可能出错了
在pyspark中尝试读取Hive表时遇到UnknownHostException,问题出现在jupyter环境中但本地运行正常。可能的原因包括core-site.xml的fs.defaultFS配置、HDFS的nn端口设置、hdfs-site.xml中的nameservice配置以及主机名映射缺失。检查和调试代码上下文以定位配置加载错误是解决此问题的关键。
3473

被折叠的 条评论
为什么被折叠?



