
数据仓库
二两芝麻
忧郁是看脸的,我们这样的,最多是心里不得劲,哎,心里不嘚劲啊
展开
-
kettle远程执行
所以在开发阶段用我们自己PC来运行ETL可能会存在一定性能问题, 这时我们就可以用到服务器来远程运行. 设置方式如下: 在服务器上启动进程(做一次即可) root@nj-dc-job-de:/opt/kettle7.0# ./carte.sh IP 8082 & ./carte.sh IP 8082 & > carte.log 2>&原创 2018-08-15 12:36:27 · 1274 阅读 · 0 评论 -
kettle安装设置
安装基础包, 及JAVA环境 apt-get install libwebkitgtk-1.0.0 apt-get install openjdk-8-jre-headless 安装unrar解压缩 apt-get install unrar 上传kettle软件 (后续有新版本可以更新) 路径: O:\系统支持组\DBA组\pdi-ce7.0.rar unrar x pdi-ce7...原创 2018-08-15 12:37:16 · 542 阅读 · 0 评论 -
kettle的转换里面实现insert/update插件的功能
https://blog.youkuaiyun.com/u012848709/article/details/65626634转载 2018-08-29 11:24:30 · 4526 阅读 · 0 评论 -
通过数据库批量向kettle中插入数据,建立trans和job的模板(按照不同的要求需要自行调整)
import psycopg2 用来操作数据库的类 class GPCommand(object): # 类的初始化 def init(self): self.hostname = ‘10.1.2.42’ self.username = ‘di_repository’ self.password = ‘di_repository...原创 2018-09-14 17:32:36 · 718 阅读 · 0 评论 -
kettle数据库表梳理
简单梳理一下kettle的后台数据库表的罗杰及重要的字段原创 2018-09-17 16:20:43 · 1454 阅读 · 0 评论 -
通过csv文件形式进行数据入仓的流程及脚本
1、将数据抽取插入到csv文件,写入到数据库中 2、将csv文件插入到目标数据库(这里以插入到postgresql为例): 首先在服务器上写连接pg数据脚本, 在普通用户home目录下建立文件:.pgpass,内容为ip:端口号:schema:name:pasdword 在文件目录下建立文件夹例如:Mysql2Gp,并在文件夹下建立cfg目录,用来存放配置脚本,在Mysql2Gp目录下建立文件wr...原创 2018-10-12 11:01:21 · 891 阅读 · 0 评论 -
数据仓库的设计想法
这个blog用来积累设计数据仓库需要考虑的一些问题: 1、 源系统数据调研 也就是所谓的源系统数据,需要怎么调研,调研一些什么呢? 目前认为需要确认业务的流程(其实就是业务流程对应的后台表的关系), 因为应用系统流程变更,最好设置业务流程的文档维护业务知识,作为知识积累 2、在第三范式建模和维度建模之间的选择 目前主流的建模方式是维度建模,三范式建模,实体建模等,这里建议在ods层上添加第三范式...原创 2019-01-07 13:52:02 · 196 阅读 · 0 评论