
kettle
hyfstyle
这个作者很懒,什么都没留下…
展开
-
kettle加工处理月累、年累数据
有需要算 月累(当月1号至当前日期)、年累(当年1月1号至当前日期的销售数量、金额等)数据时, 数据只能一天一天累计加工。先初始化加工数据,可以扫描日期文件,用kettle加工数据, 一天加工一次;脚本调度扫描日期一天一天执行。#!/bin/bash#脚本所在路径WORK_DIR=/home/hadoop/ktl_wksLOG_DATE=`date +%Y%m%d`LOG_TIME=`date +%H%M%S`KETTLE_HOME=/home/hadoop/software/pdi-c原创 2020-09-25 12:51:42 · 874 阅读 · 0 评论 -
kettle 跨库关联
要关联两个不同的数据库表获取一些数据,因为不在同一个库,所以一个SQL搞不定;又不想把A库的数据拿到B库,再处理;所以用kettle 的记录集连接(类似我们SQL中常用的 left join、right join、inner join)可以分别在两个表输入里加工好两部分数据选择我们要用到的连接类型 然后输入要关联的两个步骤里的字段然后选择需要的字段,先获取所有字段 然后把不需要的删掉最后表输出 获取到需要的数据。...原创 2020-05-12 18:28:36 · 3720 阅读 · 0 评论 -
抽取数据到impala数据量异常
最近,用kettle把DB2的数据抽取到impala上,发现数据量异常,数据错开等情况。检查发现DB2源表里的数据某个字段中内容含有英文的逗号,而impala上建的表TERMINATED BY ','也用英文逗号分隔的,所以造成数据错乱;另外源表数据字段内容包含换行、回车符也会导致到impala数据分隔异常 数据错乱。解决方案:针对分隔符,导致的 ;可以换一种分隔符 |,重新建表CREATE...原创 2020-03-27 16:46:54 · 1158 阅读 · 0 评论 -
kettle 抽取数据到CSV文件
要从数据库中导出数据量较大的数据到CSV文件中,用kettle来导出。新建一个kettle转换在表输入里获取数据源 可以直接给相应字段设置别名 输出到文件导出的文件名: 文件名称 浏览 自定义名称, 选择逗号分隔值的文件分隔符默认的是分号; 改成逗号 字符编码设置 根据导出的数据库编码格式设置 一般为 UTF-8:注意导出的CSV文件获取字段时,string类型 字段长度...原创 2020-02-29 11:53:49 · 2646 阅读 · 0 评论 -
kettle 连接 mysql8相关设置
kettle默认使用的是org.gjt.mm.mysql.Driver,而mysql 8.0以上connector已经不再支持这个包名;即使将mysql-connector-java-8.0.xx.jar包拷贝到data-integration/lib目录下,还是报错找不到驱动;所以要用jndi方法设置kettle,用com.mysql.cj.jdbc.Driver作为驱动。com.mysq...原创 2019-12-31 16:24:13 · 1493 阅读 · 0 评论 -
kettle 运行常见的报错
kettle 加工抽取数据到另一个数据库运行常见的报错:DB2 SQLCODE=-206, SQLSTATE=42703 定义表字段问题 解决办法 检查建表字段(要用大写),在DB2中,默认情况下所有的名称都可包含字符:A-Z(大写) 0到9 @、#、$和_(下划线),名称不能以数字和下划线开头 ;Error: SQLCODE=-302, SQLSTATE=22001, SQLERR...原创 2019-10-22 10:46:31 · 12606 阅读 · 4 评论 -
kettle抽取数据分发到其他数据库
最近要把数据库里一些表的数据分发到十几个不同的DB2数据库中,为减少工作量,设置相关数据库信息为参数(密码 ${DB2_PSWD})。设计好TRAN和JOB后,用shell调度脚本按需执行相关转换或任务。kettle调度脚本kettle_WuLiu.sh 如下:#!/bin/bash#脚本所在路径source /etc/profileWORK_DIR=/home/hadoop/k...原创 2019-08-20 17:10:34 · 1093 阅读 · 0 评论 -
kettle连接Oracle数据库报错解决
kettle7.1连接Oracle数据库正常,但是今天连接另一个版本的Oracle数据库报错网上说是Oracle的ojdbc相关的jar包版本问题,除了换jar包还有个方法可解决:(DESCRIPTION = (ADDRESS = (PROTOCOL = TCP)(HOST = 10.XX.XX.XX)(PORT = 1521))(CONNECT_DATA = (SERVER = DEDIC...原创 2019-08-14 09:31:41 · 4283 阅读 · 1 评论 -
kettle抽取数据到impala
1.首先确认数据来源,查询获取需要抽取的数据2.kettle中,抽取源数据上传到HDFS指定路径下,如果hive表 是STORED AS TEXTFILE上述 FILE_NAME 根据日期指定数据存放在HSFS上的具体位置,相应日期存放相应数据,在/user/hive/warehouse/test.db/order_tmp/dt_id=20190301/order_20190301这是...原创 2019-03-01 17:14:54 · 4077 阅读 · 3 评论 -
kettle 下载安装 使用
kettle下载下载的压缩包 https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.1/pdi-ce-7.1.0.0-12.zip/download 直接解压到本地路径即可安装JDK1.8,并配置环境变量备注:安装jdk1.7 kettle启动时spoon 报A Java Exception has occ...原创 2019-03-07 14:06:15 · 858 阅读 · 0 评论