
数仓理论相关
文章平均质量分 73
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
银行业十大主题域(IBM版)
银行的业务开展过程中的相关各方,个人、机构、柜员。原创 2025-01-24 05:38:16 · 205 阅读 · 0 评论 -
数仓指标分类
1.原子指标不加任何修饰词的指标就是原子指标,也叫度量。一般存在于olap表中,指表达业务实体原子量化属性的且不可再分的概念集合,涉及聚合操作,如交易笔数、交易金额、交易用户数、订单量、用户量的等等。原子指标=业务过程(动作)+度量,如支付(事件)金额(度量),交易笔数、交易金额、交易用户数等。和度量含义相同,某一业务行为事件下的度量,是业务定义中不可拆分的指标,如销售金额、库存数量。2.派生指标修饰词:修饰词用于派生指标和复合指标的定义,不含有计算口径。指除了统计维度以外指标的业务场景,如某原创 2022-05-07 15:18:12 · 1665 阅读 · 0 评论 -
主流数据仓库架构简析(11年文章新浪博客迁移)
目前来说,数据仓库架构比较成熟并已经形成理论的主要有两个,一个是Corporate Information Factory,简称CIF,中文一般翻译为企业信息工厂,代表人物是Bill Inmon;另一个是Mutildimensional Architecture,简称MD,中文一般翻译为多维体系结构,代表人物是Ralph Kimball。企业信息工厂主要包括集成转换层(Integrated and Transformation Layer)、操作数据存储(Operational Data S...原创 2022-03-24 09:49:47 · 1232 阅读 · 0 评论 -
银行业数据仓库项目成功的关键 (11年文章新浪博客迁移)
近日看到各大公司(IBM/NCR/ORACLE等)对金融行业数据仓库关键成功因素的描述,根据中国实际,加入了一些自己的一些想法,跟大家共勉!一、高层领导对数据仓库项目的支持几乎所有的知名厂商,都把这个因素做为数据仓库项目能否成功的首要关键因素。足以说明这个因素的重要性。企业级的数据仓库集成了企业所有业务系统的数据,面向全企业提供统一的数据视图。所以它是全企业各个部门、各个机构的的共享资源。此项目对赢得竞争优势和对促进企业的长期发展的有着举足轻重的作用。因此高层领导必须给予高度重视和支持,也只有高层.原创 2022-03-24 09:46:35 · 1407 阅读 · 0 评论 -
DAMA-DMBOK 数据治理功能框架
1、DAMA知识领域车轮图2、DAMA-DMBOK 功能框架标识出了11 个主要的数据管理知识领域数据治理(Data Governance)通过建立一个能够满足企业数据需求的决策体系,为数据管理提供指导和监督数据架构(Data Architecture)定义了与组织战略协调的管理数据资产蓝图,以建立战略性数据需求及满足需求的总体设计数据建模和设计(Data Modeling and Design)以数据模型的精确形式,进行发现、分析、展示和沟通数据需求的过程数据存储和操作(Data Storag原创 2022-03-18 10:03:43 · 3571 阅读 · 0 评论 -
所谓数据资产管理
1.目标可见:通过对数据资产的全面盘点,形成数据资产地图。针对数据生产者、管理者、使用者等不同的角色,用数据资产目录的方式共享数据资产,用户可以快速、精确地查找到自己关心的数据资产。可懂:通过元数据管理,完善对数据资产的描述。同时在数据资产的建设过程中,注重数据资产业务含义的提炼,将数据加工和组织成人人 可懂的、无歧义的数据资产。具体来说,在数据中台之上,需要将数据资产进行标签化。标签是面向业务视角的数据组织方式。可用:通过统一数据标准、提升数据质量和数据安全性等措施,增强数据的可信度,让数据科原创 2022-03-10 09:16:15 · 4199 阅读 · 0 评论 -
数据治理中的数据分类
一、记录类数据1、事务数据事务是数据库处理数据的一个单元,可以理解为一次数据库CRUD的操作。事务数据就是记录下数据库操作的系统日志数据,以及特定业务场景中,专门记录的业务操作事务记录的数据,比如用于安全审计的系统登录日志。2、业务数据业务数据就是为了完成业务流程而存储的业务操作类数据。就是业务系统的绝大多数表和数据。3、日志数据早期的日志数据是属于事务数据中的。现在大数据时代,用户访问数据变得越来越重要,所以单独分离出来。二、管理类数据1、元数据元数据(Meta-d..原创 2022-03-09 11:32:23 · 7182 阅读 · 0 评论 -
所谓数据治理
转自:所谓数据治理 - 知乎 (zhihu.com)那些年,我们一起踩过的坑大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,但客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客户足够满意的答卷,但是原创 2022-03-09 09:01:43 · 642 阅读 · 0 评论 -
数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼
转自:数据库、数据湖、数据仓库、湖仓一体、智能湖仓,分别都是什么鬼 (baidu.com)最近被大数据相关的小词儿,整的有点懵。索性我们就来个专题,聊透数据库、数据仓库、数据湖以及风头正劲的“Lake house”——湖仓一体化。1、数据仓库是个啥?和数据库有什么不同?数据库的基本概念,大家应该都不陌生。如今但凡是个业务系统,都或多或少需要用到数据库。即便我们不直接跟数据库打交道,它们也在背后默默滴为我们服务,比如刷个卡、取个钱,后台都是数据库们在扛着。数原创 2022-03-08 16:49:11 · 2158 阅读 · 1 评论 -
从数据库到数仓到数据湖再到数据治理
1、关系数据库在计算机系统的初期,业务系统的雏形刚刚开始,比如记录订单的系统。这个时候,连数据仓库都没有出现。那么用户有数据分析的需求怎么做呢?答案很简单,直接从业务系统来处理数据。这样的场景现在依然存在,比如饭店的收银系统,可以导出一天的交易数据。随着业务系统越来越复杂,数据分析的要求也越来越高。这个时候,继续在业务系统做数据分析就变得不是很合适,原因之一是业务系统的架构并不擅长处理大量的历史数据分析和多维度的数据建模,二是数据分析对业务系统的性能造成非常大的挑战,甚至影响正常交易进行。2、数原创 2021-12-17 15:32:16 · 1383 阅读 · 0 评论 -
到底什么叫作数据架构?
转自:https://www.sohu.com/a/456107235_120054107随着数据治理工作的深入,数据标准的理念逐步为人所知、所识。但是,数据架构是什么,如何管理,谁来负责,还没有形成一致的共识。早前,在技术领域,系统架构、应用架构、信息架构相对为人了解,近年来一些企业级架构师也开始提出业务架构等概念。就数据架构而言,实践还呼唤一些理论的澄清,理论也亟需实践的反馈。图1企业架构划分数据架构是什么?此前有多重解读和方案。但是随着业界理论体系的不断完善,以及企业级数据治理工作的不断原创 2021-12-15 11:16:30 · 1070 阅读 · 0 评论 -
大数据平台及数仓的通用架构和技术体系
一、大数据架构技术体系1 数据传输层Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL、SQLServer、Oracle)的数据到HDFS.Cannal:阿里开源的数据同步工具,通过监听MySQL binlog,实现增量数据订阅和近实时同步。Flume:用于海量日志采集、聚合和传输,将产生的数据保存到HDFS或者HBase中。Flume + Kafka:满足实时流式日志的处理,后面再通过Spark Streaming等流式处理技术,可完成日志的实时解原创 2021-01-15 11:36:55 · 1685 阅读 · 0 评论 -
大数据的发展历史
大数据将近30年的发展历史,经历几多阶段。1 启蒙阶段:数据仓库的出现20世纪90年代,商业智能(也就是我们熟悉的BI系统)诞生,它将企业已有的业务数据转化成为知识,帮助老板们进行经营决策。比如零售场景中:需要分析商品的销售数据和库存信息,以便制定合理的采购计划。显然,商业智能离不开数据分析,它需要聚合多个业务系统的数据(比如交易系统、仓储系统),再进行大数据量的范围查询。而传统数据库都是面向单一业务的增删改查,无法满足此需求,这样就促使了数据仓库概念的出现。传统的数据仓库,第一次明确了数据分.原创 2021-01-15 11:06:22 · 7568 阅读 · 0 评论 -
将信将疑,将中台进行到底
本文作者:guohua一、将信将疑一个概念的兴起往往伴随着某种话语权的转移。就像中台。人们都知道马云参观Supercell的故事,都知道2015年阿里的中台战略,也都知道阿里集团在中台之后如帝国一般的繁荣。而且仔细感觉一下,事情还有些蹊跷,虽然中台是阿里根据Supercell的模式提出的,但故事的走向却越来越像牛顿看到苹果落地而悟出了万有引力一样——真正的主角是阿里,Supercell纵然很成功,却只像一个不能自知的苹果,等待着被人总结。所以哪怕最后腾讯收购了Supercell,大家还是觉得天下原创 2020-08-11 16:59:07 · 385 阅读 · 0 评论 -
某垂直电商拍卖平台数仓架构及主题域划分
一、数仓架构1、贴源数据,添加时间戳2、将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。统一表及字段命名规范统一字段格式及度量集成整合数据,使数据清晰明了3、按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。事实表、宽表建设公共汇总建设4、现在已有系统数据基本都出自DWT\DWF多维分析数据出自DWF挖掘数据出自DWT、甚至ods数据仓库是为了支持复杂的分析和决策,数据挖掘是为了在海量的数据里面发掘出预原创 2021-01-19 19:01:16 · 2130 阅读 · 1 评论 -
数据仓库、数据湖、数据中台基础概念与对比
现在各种新名词层出不穷,顶层的有数字城市、智慧地球、智慧城市、城市大脑;企业层面的有数字化转型、互联网经济,数字经济、数字平台; 平台层面的有物联网,云计算,大数据,5G,人工智能,机器智能,深度学习,知识图谱;技术层面的有数据仓库、数据集市、大数据平台、数据湖、数据中台、业务中台、技术中台等等,总之是你方唱罢他登场,各种概念满天飞…在数据技术方面,随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据原创 2020-06-09 19:36:03 · 2394 阅读 · 0 评论 -
中台的分类及实时数据中台构建
中台的种类1.技术中台(基础服务中台)技术中台指的是将大家都通用的技术能力聚合到一起,由同一个团队负责,防止重复造轮子,是最容易实现的中台化。核心价值是降成本。各公司的基础服务,以账号体系为代表,都已经是中台化的了。淘宝、天猫、飞猪等业务之间,快车、专车、顺风车等业务之间,美团外卖、酒旅、团购之间,必然要做打通。2.数据中台顾名思义,表面上数据中台是各业务的数据能够打通。不过在实际运用中,又分为多种。数据中台的本质就是“数据仓库+数据服务中间件+实时性”。基本的数据采集、数据仓库建立和数据原创 2020-06-06 10:41:14 · 1309 阅读 · 0 评论 -
数据中台研发实践
转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监1、数据处理架构下面是一个简单的数据处理架构演进过程:最早数据仓库的计算只支持批处理,通常是按天定时处理数据,在后期逐步进化到准实时,本质上还是批处理,只是处理频度上得有提升,到小时级,或者15分钟这种。随着技术不断进步,后期演化出一条新的流处理链路,这个链路和之前的批处理分别处理,然后在服务层面利用原创 2020-06-05 18:23:07 · 1227 阅读 · 0 评论 -
数据中台架构与技术选型
转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监1、数据中台架构核心组成我认为的数据中台核心架构包括四大组成部分,具体是:底座是数据基础平台,包括数据采集平台&计算平台&存储平台,这些可以自建也可以使用云计算服务;中间部分两大块是中台的公共数据区,公共数据区包括数据仓库(数据湖) ,主要负责公共数据模型研发,还包括统一指标(标签)平台,负责把原创 2020-06-05 17:20:33 · 3036 阅读 · 0 评论 -
大数据演进:从数据仓库到数据中台
转自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:颜博,马蜂窝数仓研发总监第一阶段21世纪的第一个10年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata)占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。这个时代的数据仓库实施不仅需要购买大(中、小)型机,配套商用的关系型数据库(Oracle、DB2、SQL Server原创 2020-06-05 16:41:15 · 784 阅读 · 0 评论 -
数据湖浅析
一、什么是数据湖?ODS(operational data store, staging area)存储来自各业务系统(生产系统)的原始数据,即为数据湖。CDM(common dimension model)为经过整合、清洗的数据。其中的DWS汇总层,为面向主题的数据仓库(狭义),用于BI报表出数。简单来说,数据湖的定义就是原始数据保存区. 虽然这个概念国内谈的少,但绝大部分互联网公司都已经有了。国内一般把整个HDFS叫做数仓(广义),即存放所有数据的地方。二、数据湖与数仓有什么区别?为什么要做原创 2020-05-26 16:56:55 · 938 阅读 · 0 评论 -
阿里云高级技术专家李金波:优秀数仓的要素及如何从传统数仓转型做互联网数仓?
介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。优秀数仓的三要素:清晰、保障和扩展性好介然认为,优秀的数据仓库应该包含以下要素:1.结构、分层清晰不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。2.数据质量和产出时间有保障;3.扩展性好不会因为业务的些许变化造成模型的大面积重构。而从系统架构、数据架构两个纬度原创 2020-05-25 09:56:11 · 575 阅读 · 0 评论 -
如何埋点获得数据并进行数据分析
一、埋点是什么?数据分析的前提是数据。对于电子商务平台来说,数据分为以下几类:1、用户基本属性数据2、交易数据3、卖家和商品数据4、活动运营数据5、流量数据或用户行为数据前四个数据是直接通过用户录入或者行为触发,在数据库里面产生记录。而流量数据或者说用户行为数据,则需要识别具体的每个行为。通过埋点(也可通过定制access Log)就可以取得这部分数据。通常是业务方、PD、BI,...原创 2019-11-27 09:09:32 · 3723 阅读 · 0 评论 -
建模的一些基本原则
建模的基本原则,在建模的过程中需要加以考虑,避免以后遇到大坑措手不及,而不是简单的为了建模而建模。1.高内聚&&低耦合主要从数据业务特性和访问特性两个角度来考虑:将业务相近或者相关、粒度相同的数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起 ,将低概率同时访问的数据分开存储。2.核心模型与扩展模型分离核心模型包括的宇段支持常用的核心业务,扩展模型包括的...原创 2019-11-25 18:59:08 · 5369 阅读 · 0 评论 -
数仓存在的意义价值及分层的好处
数据仓库有4个基本特征:面向主题的、集成的、相对稳定的、记录历史的,而数据仓库的价值正是基于这4个特征体现的:1、高效的数据组织和管理面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。2、时间...原创 2019-11-25 16:59:06 · 6022 阅读 · 0 评论 -
初识Data Vault建模
Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。Dan Linstedt将Data Vault模型定义如下:Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方...原创 2019-11-20 11:18:15 · 1083 阅读 · 0 评论 -
初识DataLake数据湖
维基百科对Data lake的解释:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结...原创 2017-12-14 15:18:05 · 13118 阅读 · 0 评论 -
数据湖初探
什么是数据湖?数据湖概念是2011年提出来的,最初数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发、维护成本,细节数据丢失等问题出现的。数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时候,很多数据仓库逐渐迁移到以Hadoop为基础的技术栈上,而且除了结构化数据,半结构化、非结构数据也逐渐的存储到数据仓库中,并提供此类服务。这样的数据仓...原创 2019-11-19 19:33:09 · 524 阅读 · 0 评论 -
关于主数据管理
主数据(Master Data)是具有共享性的基础数据,可以在企业内跨越各个业务部门被重复使用的,因此通常长期存在且应用于多个系统。由于主数据是企业基准数据,数据来源单一、准确、权威,具有较高的业务价值,因此是企业执行业务操作和决策分析的数据标准。企业主数据是用来描述企业核心业务实体的数据,比如客户、合作伙伴、员工、产品、物料单、账户等;它是具有高业务价值的、可以在企业内跨越各个业务部门被重复使用...原创 2019-11-19 17:03:11 · 1198 阅读 · 0 评论