背景
最近需要将mysql的数据库的数据导入到hive里,期间遇到了很多坑,这次来总结一下。
步骤
1.启动hiveServer2
kettle 是通过jdbc 来连接hive的,而jdbc 方式连接hive需要启动hiveServer2(thrift接口程序),执行如下命令来启动hiveServer2./hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10001 --hiveconf hive.server2.thrift.bind.host=[SERVER_IP]
2. 修改plugin.properties 文件
文件位置:KETTLE_HOME/plugins/pentaho-big-data-plugin/plugin.properties
修改active.hadoop.configuration=hdp25(我使用的是apache hadoop,其他版本的hadoop选择相应的版本)


3. 下载对应的hive jar包
从服务器下载hive jar文件到之前的hdp25/lib文件夹下,主要注意hive-开头的:


4.kettle里创建数据库连接
选择连接类型为hadoop hive2,填写好主机名称、数据库名称,以及之前hiveServer2的端口号,以及用户名和密码,如下:



本文详细介绍将MySQL数据库数据导入Hive的过程,包括启动hiveServer2、配置Kettle的plugin.properties文件、下载hive jar包及在Kettle中创建Hadoop Hive2数据库连接的具体步骤。
3149

被折叠的 条评论
为什么被折叠?



