因业务需要,切换到cdh6.3.2平台,虽然用起来 不是很熟悉,但总体还是能快速入手spark、hive及sqoop等使用。但导数据时发现sqoop其实并不见得那么好用,反而不如使用可视化界面的kettle(有可能是数据体量限制,这点我至今没想明白sqoop与kettle之间的差异,欢迎指正)。
kettle8.2已经具备使用经验,对接过mysql mssql 等,并且输出到usdp平台的parquet文件,一切正常。之前思路是 业务平台数据--kettle8.2-parquet-hive外部表-pyspark及其他计算使用后输出到clickhouse用作数据平台大规模数据查询,这样做一方面用来做应用系统库mysql数据备份,另外用来存储数据做分析使用。
之前一切正常,这次切换平台后,一直出现 root directory access 问题。搜资料,看日志,途经了:
1、第一天:切换 shims,由之前的cdh5.1.4切换到cdh6.1,自制cdh6.3等,结果问题依旧;
2、第二天:因我本地端是windows10,kettle日志中出现 缺少..... winutils.exe ,于是乎windows上安装了hadoop3.0.0(因cdh6.3.2采取这一版本),配置了 HADOOP_HOME,然而问题依旧。
3、都准备先休整放弃搞搞其他,熟悉一下impala等,突然发现 日志中出现 cdh节点域名情况,突然想到,是否我采用ip导致出问题,于是抱着再试一试的心态修改windows下hostc,将所有cdh6.3.2节点全部做了域名解析(windows修改hostc不需要重启)。
4、重启 kettle,居然居然居然 OK啦。
hadoop新手切记:域名 域名 域名
===失落又激动的写下这篇历程:
1、长期不亲自写代码果然是不行的,很难找到感觉,所以会出现一些莫名其妙的问题;
2、菜鸟就要有菜鸟的觉悟,一步一步的学;
3、hadoop体系不愧是数据开发、分析界的天花板,涉及技术之多,领域之广,让沉浸在单一开发语言、数据库操作领域人来说有一种井底之蛙的感觉。掌握这一套东西,需要理论基础知识面很多。
继续加油,一起加油!共勉!
CDH6.3.2平台数据导入问题解决历程
作者因业务切换到cdh6.3.2平台,使用spark、hive及sqoop等工具。导数据时发现sqoop不如kettle,切换平台后kettle出现root directory access问题。经多番尝试,最终通过修改windows下hostc做域名解析解决问题,还分享了学习感悟。
285

被折叠的 条评论
为什么被折叠?



