
数据仓库
文章平均质量分 73
bigdataCoding
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
金融数据仓库系列-实时数仓
Oracle GoldenGate实时同步Oracle实时传输到Hadoop集群(HDFS,Hive,Kafka等)的基本原理如图:根据如上原理,配置大概分为如下步骤:源端目标端配置ogg管理器(mgr);源端配置extract进程进行Oracle日志抓取;源端配置pump进程传输抓取内容到目标端;目标端配置replicate进程复制日志到Hadoop集群或者复制到用户自定义的解析器将...原创 2019-05-13 20:28:40 · 2923 阅读 · 0 评论 -
金融数据仓库系列-打造数据中台
什么是数据中台?数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台的特点:数据技术统一:统一的数据存储规范、统一的数据处理工具、统一数据存储及对海量数据进行采集、计算、存储、加工,同时统一标准和口径数据服务化:将数据模型按照应用要求做了服务封装,就构成了数据服务,这个跟业务中台中的服务概念是完全相同的及服务数据前置让业务人源充分理解业务数据更加...原创 2019-05-15 14:23:11 · 3137 阅读 · 3 评论 -
金融数据仓库系列-什么是数据仓库
一个公司里面不同项目可能用到不同的数据源,有的存在MySQL、Oracle里面,有的又存在Hive里面,甚至还有些利用爬虫爬取的第三方数据源,还有部分的影像文件系统如音频和图像等。这些数据都分散在各个源系统中,如何把各个系统整合到一起,避免数据的孤岛和数据没有打通的问题,然后进行数据分析和挖掘。此时数据仓库(Data Warehouse,DW)就派上用场了。它可以对多种业务数据进行筛选和整...原创 2019-05-11 10:37:20 · 1078 阅读 · 0 评论 -
金融数据仓库系列-统一指标数据标准化
在工作经常会碰到与业务或者运营人员沟通需求的时候,自己理解和需求得出的数据不一致。这一部分是由于对产品对业务理解的不够透彻另一方面也存在数据源口径不一致的问题,因此在做数据治理或者数据仓库标准化的实时对指标换句话说数据口径的统一显得明显重要。建立统一指标体系,注重全面性和均衡性,覆盖我行的业务、管理、风险、成长等各个发展战略目标,既要注重财务指标,也要注重内部管理指标,完成全行基础指标...原创 2019-05-11 15:01:52 · 3470 阅读 · 0 评论 -
金融数据仓库系列-数据拉链
在数据仓库的表设计通常会根据业务情况和源系统对数据的存储情况对仓库的表进行设计以便更好的利用存储资源和完成保留数据记录,通知表的设计分如下几种方法:1. 全量表:每天的所有的最新状态的数据,缺点:浪费存储空间2. 增量表:每天的新增数据,增量数据是上次导出之后的新数据。3. 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一...原创 2019-05-11 15:16:45 · 648 阅读 · 0 评论