
ETL
文章平均质量分 92
浪菜叶
数据仓库实践者
展开
-
大数据环境下数据仓库的实践(三)—— 数据仓库的组成部分
数据仓库从全局来看会涉及到四大块:业务源系统、ETL系统、数据应用层、数据消费层。业务源系统数据仓库中数据的来源是各个业务源系统。严格说来业务源系统不属于数据仓库的范畴。但是如果业务系统模型设计不好,对后续的数据处理将极为不利,甚至会极大的增加数据仓库建设的投入成本。现状往往是业务系统的设计人员水平参差不齐,业务系统设计千奇百怪,甚至缺乏第三范式的考量,缺乏基本的审计字段(cre...原创 2019-05-26 19:16:38 · 1091 阅读 · 0 评论 -
大数据环境下数据仓库的实践(五)—— ETL之落地层同步
准确地来说,在大数据里很多时候是ELTL,但是我们仍然保留历史的称呼用ETL来描述从抽数到提供应用之间的所有数据处理步骤。ETL的第一步总是避不开从业务源系统抽取数据到落地层(Staging)。实践中,大部分时候大厂都用ODS来命名,歪果仁通常称为STG,这里只是叫法不同,作用是一样的——一次读取以缓冲对源系统数据的访问。EL工具市面上比较常用的是sqoop和dataX,也有通过binlog消...原创 2019-07-02 11:43:47 · 956 阅读 · 0 评论 -
Hive SQL中不同数据类型比较时隐性转换的坑
不同数据类型比较先来看一段SQL。表dean_test中字段a的类型是整型INT,字段b的类型是字符串/字符型STRING/VARCHAR。select * from dean_test where a = b这就是不同数据类型比较。现实中发现不少数据类型不匹配的比较能很兼容地进行隐性类型转换。但是,隐性类型转换的一个大前提应该是不能丢失精度!换句话说,显性转换和隐性转换的结果必须是一致...原创 2019-07-11 16:57:30 · 2856 阅读 · 0 评论