
kettle(pdi)
文章平均质量分 52
li72li72
数据服务中心,数据处理,ETL
展开
-
etl工具,kettle实现循环
业务模型: 在关系型数据库中有张很大的表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,字段切换到下一个表。现需要同步这个数据到hive中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。原创 2014-10-01 08:13:16 · 21930 阅读 · 4 评论 -
hadoop平台工作梳理
数据平台: 一、 hadoop平台:Hbase,hive,storm,spark 1) 部署hadoop到多台机器,调整配置参数,保证正常运行。可能出现作业挂死现象。 2) 部署hive客户端,元数据库mysql等的配置,hive客户端是不参与集群的,mysq原创 2014-11-15 00:04:23 · 3340 阅读 · 0 评论 -
etl工作中的设计问题
http://blog.youkuaiyun.com/lili72 背景1 : 随着接入数据和处理数据的增加,生产脚本也越来越多,脚本由于前期的开发人员没有做到规范管理,导致脚本很乱。 解决方案: 1) 在lunix上规范目录,按平台,业务模块分目录存放。 2) 做好版本管理,提交到生产的脚本必须要commit到svn服务器。 3) lunix上的目录是反应到svn的目录映射。原创 2014-12-10 22:12:39 · 1296 阅读 · 0 评论