
大数据
上道至简
学习技术的过程,就是从学习怎么使用,到理解为什么这样用,再到自我创新,进一步优化,深度思考。
展开
-
maven仓库支持下载CDH的包
一、项目pom.xml, 添加仓库配置 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> &...原创 2018-11-23 16:16:01 · 1638 阅读 · 0 评论 -
ETL工具之Kettle的使用及源码研读
首先简单说明一下ETL的概念,引用百度上写的就是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。 再说下Kettle是什么。它其实就是一个数据迁移的工具,使用java编写,提供图形界面来设计ETL转换过程。Kettle中有两种...原创 2019-05-26 22:08:18 · 717 阅读 · 0 评论 -
Kettle采集数据时遇到error:invalid byte sequence for encoding "UTF8": 0x00
我们项目有个需求是需要通过 Kettle把数据从 oracle采集到postgresql,然后在采集过程中发现出现了invalid byte sequence for encoding "UTF8": 0x00导致采集失败,经查阅相关资料,pg官网上解释是因为pg数据库不能存储\u0000这样的字符,明白了根本原因,解决方案就容易多了,首先是确定哪此字段会包含这种字符,为了快速定位问题,我把ket...原创 2019-07-31 23:14:33 · 5075 阅读 · 1 评论