001-数据仓库(分析系统)简介

1 数据仓库基本概念:

  • 数据仓库:存储历史数据的地方,用于为了更好地管理和使用数据。

  • 数据仓库:数据仓库扮演着历史数据存储、离线数据汇聚整合、公共数据统一加工发布的角色,数据仓库将公司所有结构化数据,包括内部数据和外部购买的数据,进行整合和基础加工,为各数据使用人员提供统一的数据支持。

  • 根据我们对数据的需求,可以将数据系统分为两种,分别是交易型数据系统和分析型数据系统:交易型数据系统多用于交易,用于业务,操作时提取的数据量少,经常是精确或小批量提取,在交易型数据系统中,存放数据的地方,我们称之为数据库,常用软件如oracle、mysql、SQL Server。分析型数据系统多用于分析,需要用到历史数据,操作时提取的数据量巨大,经常是批量提取,往往不需要数据能够实时更新,要求大批量数据查询速度快。在分析型数据系统中,存放数据的地方,我们称之为数据仓库,常用库软件如GaussDB。

  • 交易型数据系统通过和用户的交互产生数据;分析型数据系统从交易型数据系统获得数据,加工分析后衍生数据。

2 数据仓库分层设计管理

  • 分析型数据系统所存储的数据量非常大,为了提高数据管理、处理和分析的效率,我们对其进行逻辑分层,常见的分层是:1、操作数据存储层(Operational Data Store, ODS);2、公共数据存储层(Global Data Store,GDS),也可以称之为数据明细层(Data WareHouse Detail, DWD);3、业务集市层(Business Data Store, BDS),也可以称之为数据服务层(Data WareHouse Service, DM);4、应用数据存储层(Application Data Store, ADS)。 对于ODS、GDS(DWD)、BDS(DWS)、ADS这4个层级,不同公司的说法可能不不一样,但本质上的工作大体相同。

1 ODS:

分析型数据系统从从各交易系统获取数据,通常首先面临以下问题:

-不同的交易系统可能使用不同的存储方式,如数据库存储、excel存储、txt存储;同样使用数据库存储的,可能使用不同的数据库,如mysql、oracle;同样使用txt文件存储的,可能使用不同的编码格式,如utf-8、gbk。

  • 数据仓库岗位的员工,可能存在多个部门组同时从同一个交易系统中取数的情况,也可能存在先后从交易系统中抽取同一数据的情况。当多个部门同时从交易系统中取数,会对交易系统数据库的运行造成压力,严重时影响业务的正常进行。当多个部门先后从交易系统中读取同样的数据,会造成存储浪费。

为了解决这种数据来源分散,存储格式和数据编码差异性大的问题,公司设立ODS团队,专程负责从各交易系统中取数,交易系统中的源数据经过抽取、转换、加载,即ETL后,装入ODS层以供下游使用。为了便于数据追溯、提高工作效率,ODS层几乎不对源数据做任何内容上的改变,除了偶尔做一些去除回车符、删除无效空格等操作外,大多情况下原封不动的装载上游数据,供下游人员取用。ODS通常进行短期存储。

2 GDS(DWD):

对于同一类型的数据,不同业务系统可能有着不同的存储格式,以时间为例,有的存储格式为20210124,有的则为2021-01-24;对于同一个指标,不同系统可能使用不同的码值,以性别为例,有的直接命名为男、女,有的则以1代表男,0代表女。此外,业务系统还可能因为技术或业务的需求变动而改变表结构,比如由原来的宽表变为窄表。如果每当上游系统变更,所有下游系统都要对应改变,一方面工作工作量太大,另一方面也容易出现问题导致数据出错。
为了解决这种数据质量参差不齐,数据定义模糊不清晰的问题,公司专门设立GDS团队,GDS一般按照主题划分,对ODS层数据进行再次加工,提供跨系统的数据整合,开发落地各种表单以供下游使用,同时也会将下游多个项目组共用或复用性比较高的表单落地到GDS,提高开发效率。简单来说,GDS主要做以下工作:

1 指标的格式统一:如对于日期指标,统一用连续的8位数字表示,并存储为字符串格式。
2 指标的码值统一:如对于性别指标,统一用1代替男,0代替女
3 轻度维度退化:将维度表退化至事实表,减少关联,提高查询效率
4 轻度数据聚合:关联多个事实表,形成宽表供下游使用,提升公用指标的复用性,减少重复加工
5 轻度指标衍生:衍生BDS中各个集市公用程度高的新指标,方便其使用
GDS在进行维度退化、数据聚合、指标衍生的时候,主要从公司的角度考虑,一般有以下两点:
1 BDS各集市公用程度比较高的指标:各集市需要拼接同样或重复性高的几张表,应考虑由GDS层先进行统一加工,以减少表拼接操作。
2 BDS各集市均需要从GDS取同一张表,对其衍生同样或类似的指标后使用,或进行同样的筛选条件,应考虑由GDS层先进行统一加工,以减少过滤操作。

3 BDS(DM):

在GDS层,一般根据主题对数据进行建表和存储管理,比如客户基本信息、资产信息、交易信息和访问信息等数据,分布存储在不同的表中,同样是客户基本信息,又可能分为校园客户基本信息表,代发客户基本信息表。这种方式可以方便公司整体人员使用,但是对于单一业务条线或者特定部门,使用起来就相对麻烦。为了方便业务使用,公司成立业务集市BDS层,支持部门或条线级分析和决策,不同公司有不同的业务集市划分方法,以银行为例,可划分为零售业务集市,对公业务集市,风险业务集市,运营业务集市。
● 零售集市:面向零售业务线,加工个人客户的数据,提供各主题的指标汇总,如客户、地域、资产、协议、交易等主题的数据汇总。
● 对公集市:面向对公业务线,加工公司客户的数据,提供各主题的指标汇总,如客户、地域、资产、协议、交易等主题的数据汇总。
● 风险集市:
提供信贷、信用卡、风险相关的经营、考核、监控等指标模型,既包括个人的,也包括公司的。
与零售和对公集市相比,风险集市主要加工贷款、征信等方面的数据。
零售与对公集市如若涉及风险方面数据,大多只是纪录粗粒度信息,如客户是否有贷款以及贷款总金额等;风险集市纪录具体信息,如贷款额合同内容、签约时间、借据号、还款方、利息、逾期情况、在其他公司贷款等等。
● 运营集市:
沉淀公司内部资金定价、成本均摊、资产管理、绩效管理等系统的公共数据需求,提供统一数据支撑。
如记录公司内部各机构组织,柜面每日交易记录,自助设备,利率汇率等信息,同业之间往来明细,公司员工明细、各种设备资金流动情况等。
运营集市一般以内部各对象为中心,比如以机构为中心,以设备为中心,以利率为中心等进行汇总记录,其下游应用部门,主要是对公司内服务。

4 ADS:

BDS从业务角度,针对某一条线或特定部门对数据模型重新进行了整合、存储,支持部门级或条线级分析决策。ADS也是从业务角度,但是粒度更新,针对某特定应用或报表对数据模型进行整合、存储,支持报表和特定项目等前端应用,直接满足业务需要。假设领导问【管理驾驶层】项目组要“本月有多少有效户”指标,有效户的定义是:月日均aum>1000 + 最近15天发生动账 + 最近15天登陆了手机银行。
为了得到有效户这个指标:

  1. ODS从源系统抽取了相关数据,并进行同一转码。指标比如是定期存余额、惠农宝余额、朝朝宝余额等具体产品的余额
  2. GDS从ODS接入数据并进行基本加工,如加工了aum月日均字段、汇总了定期余额、理财余额等字段。
  3. BDS-零售集市根据GDS的数据,直接抽取了aum月日均字段,自己加工了最近15天是否动账,最近15天是否登陆手机银行3个字段
  4. ADS-管理驾驶舱从BDS取出3个相关字段进行判断后,加工出是否有效户指标。
    ODS、GDS和BDS大多时候接收的是中间数据,产出的也是中间数据,ADS接收的是中间数据,产出的是业务人员直接需要的信息,并且将数据做成报表,发布在业务人员使用的系统中,供业务人员日常使用。

小结:

本文将数据分析系统分为了4层,分别是ODS,GDS,BDS.ADS。从ADS部分的示例来看,为了加工出一个指标,经历了4层。在这里我们可以思考:

  1. 当业务部门对ADS提出需求后,ADS是否可以不经过BDS,直接从GDS取数加工出有效户指标?
  2. 假设ADS加工了一个新指标m,BDS知道了后表示需要用,是否可以直接从ADS抽取?
    针对上述问题的发生,可能会有以下开发规定,以规范开发:
  3. ODS从各个交易系统取数。
  4. GDS应从ODS取数,不能从其他层取数。
  5. BDS应从GDS取数,不应该从ADS或ODS取数。
  6. ADS应从BDS取数,不能ADS内部互相引用取数。
    以上规范中,不允许逆向取数(比如不允许BDS从ADS取数)的规范容易执行,但是规范不允许顺向跨层取数,容易造成当业务部门提出一个指标时开发周期更长的情况,若允许ADS从GDS取数,又容易引起其他一些新的问题。
    对于具体如何制定开发规范这一问题,没有绝对的答案,一般根据不同的公司灵活调整,且同一个公司内部也需要根据实际业务状况灵活变动。

读者若有疑问或感觉不妥之处,欢迎沟通交流。微信: xiaojian625800335

欢迎转载,转载请注明出处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值