kettle8.2 连接 cdh6.3.2 root directory access 问题记录

CDH6.3.2平台数据导入问题解决历程

最新推荐文章于 2023-06-26 11:06:28 发布

原创最新推荐文章于 2023-06-26 11:06:28 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #hadoop #数据仓库

作者因业务切换到cdh6.3.2平台，使用spark、hive及sqoop等工具。导数据时发现sqoop不如kettle，切换平台后kettle出现root directory access问题。经多番尝试，最终通过修改windows下hostc做域名解析解决问题，还分享了学习感悟。

因业务需要，切换到cdh6.3.2平台，虽然用起来不是很熟悉，但总体还是能快速入手spark、hive及sqoop等使用。但导数据时发现sqoop其实并不见得那么好用，反而不如使用可视化界面的kettle(有可能是数据体量限制，这点我至今没想明白sqoop与kettle之间的差异，欢迎指正)。

kettle8.2已经具备使用经验，对接过mysql mssql 等，并且输出到usdp平台的parquet文件，一切正常。之前思路是业务平台数据--kettle8.2-parquet-hive外部表-pyspark及其他计算使用后输出到clickhouse用作数据平台大规模数据查询，这样做一方面用来做应用系统库mysql数据备份，另外用来存储数据做分析使用。

之前一切正常，这次切换平台后，一直出现 root directory access 问题。搜资料，看日志，途经了：

1、第一天：切换 shims，由之前的cdh5.1.4切换到cdh6.1，自制cdh6.3等，结果问题依旧；

2、第二天：因我本地端是windows10，kettle日志中出现缺少..... winutils.exe ，于是乎windows上安装了hadoop3.0.0(因cdh6.3.2采取这一版本)，配置了 HADOOP_HOME,然而问题依旧。

3、都准备先休整放弃搞搞其他，熟悉一下impala等，突然发现日志中出现 cdh节点域名情况，突然想到，是否我采用ip导致出问题，于是抱着再试一试的心态修改windows下hostc，将所有cdh6.3.2节点全部做了域名解析(windows修改hostc不需要重启)。

4、重启 kettle，居然居然居然 OK啦。

hadoop新手切记：域名域名域名

===失落又激动的写下这篇历程：

1、长期不亲自写代码果然是不行的，很难找到感觉，所以会出现一些莫名其妙的问题；

2、菜鸟就要有菜鸟的觉悟，一步一步的学；

3、hadoop体系不愧是数据开发、分析界的天花板，涉及技术之多，领域之广，让沉浸在单一开发语言、数据库操作领域人来说有一种井底之蛙的感觉。掌握这一套东西，需要理论基础知识面很多。

继续加油，一起加油！共勉！