
DataWarehouse
文章平均质量分 65
BabyFish13
不要急,慢慢来;控制好节奏,奋斗到底!
展开
-
银行业十大主题域(IBM版)
银行的业务开展过程中的相关各方,个人、机构、柜员。原创 2025-01-24 05:38:16 · 231 阅读 · 0 评论 -
银行业十大主题域(NCR版)
便于记忆:银行是一个企业,同时也是一个机构,涉及企业机构就会有资产,财务的存在,银行有自己的产品(信用卡,黄金,期货等)有产品就需要有人进行买卖,买卖的人这就是当事人,进行的买卖就是销售,有销售就得有渠道(不管是线上还是线下),在进行买卖,存贷款的时候需要签合同,这就是协议,整体这个交易就是事件,从而对银行的财务,资产产生影响。在银行主题模型中,每个数据仓库的实施公司会有金融行业或银行业的主题模型,这个模型会根据新的业务不断进行完善,是各实施公司的业务经验积累。原创 2025-01-24 05:20:10 · 1144 阅读 · 0 评论 -
主流数据仓库架构简析(11年文章新浪博客迁移)
目前来说,数据仓库架构比较成熟并已经形成理论的主要有两个,一个是Corporate Information Factory,简称CIF,中文一般翻译为企业信息工厂,代表人物是Bill Inmon;另一个是Mutildimensional Architecture,简称MD,中文一般翻译为多维体系结构,代表人物是Ralph Kimball。企业信息工厂主要包括集成转换层(Integrated and Transformation Layer)、操作数据存储(Operational Data S...原创 2022-03-24 09:49:47 · 1240 阅读 · 0 评论 -
某垂直电商拍卖平台数仓架构及主题域划分
一、数仓架构1、贴源数据,添加时间戳2、将ODS层经过质量检查、清洗、转换后,形成符合质量要求的公共数据中心。统一表及字段命名规范统一字段格式及度量集成整合数据,使数据清晰明了3、按主题及KPI指标对数据仓库层数据进行进一步转换,将指标与维度组成数据集市。这是OLAP的数据基础。事实表、宽表建设公共汇总建设4、现在已有系统数据基本都出自DWT\DWF多维分析数据出自DWF挖掘数据出自DWT、甚至ods数据仓库是为了支持复杂的分析和决策,数据挖掘是为了在海量的数据里面发掘出预原创 2021-01-19 19:01:16 · 2147 阅读 · 1 评论 -
阿里云高级技术专家李金波:优秀数仓的要素及如何从传统数仓转型做互联网数仓?
介然(李金波),阿里云高级技术专家,现任阿里云大数据数仓解决方案总架构师。8年以上互联网数据仓库经历,对系统架构、数据架构拥有丰富的实战经验,曾经数据魔方、淘宝指数的数据架构设计专家。优秀数仓的三要素:清晰、保障和扩展性好介然认为,优秀的数据仓库应该包含以下要素:1.结构、分层清晰不一定需要多少个分层和主题,但是一定要清晰。用数据的人能够很快找到需要数据的位置。2.数据质量和产出时间有保障;3.扩展性好不会因为业务的些许变化造成模型的大面积重构。而从系统架构、数据架构两个纬度原创 2020-05-25 09:56:11 · 580 阅读 · 0 评论 -
数仓存在的意义价值及分层的好处
数据仓库有4个基本特征:面向主题的、集成的、相对稳定的、记录历史的,而数据仓库的价值正是基于这4个特征体现的:1、高效的数据组织和管理面向主题的特性决定了数据仓库拥有业务数据库所无法拥有的高效的数据组织形式,更加完整的数据体系,清晰的数据分类和分层机制。因为所有数据在进入数据仓库之前都经过清洗和过滤,使原始数据不再杂乱无章,基于优化查询的组织形式,有效提高数据获取、统计和分析的效率。2、时间...原创 2019-11-25 16:59:06 · 6038 阅读 · 0 评论 -
初识Data Vault建模
Data Vault(DV)模型是用于企业级的数据仓库建模。由Dan Linstedt在20世纪90年代提出(http://www.danlinstedt.com)。Dan Linstedt将Data Vault模型定义如下:Data Vault是面向细节的,可追踪历史的,它是一组有连接关系的规范化的表的集合。这些表可以支持一个或多个业务功能,它是一种综合了第三范式(3NF)和星型模型优点的建模方...原创 2019-11-20 11:18:15 · 1110 阅读 · 0 评论 -
数仓架构实践1:阿里五层模型架构
1. ODS数据准备层功能:ODS层是数据仓库准备区,为DWD层提供基础原始数据,可减少对业务系统的影响建模方式及原则:从业务系统增量抽取、保留时间由业务需求决定、可分表进行周期存储、数据不做清洗转换与业务系统数据模型保持一致、按主题逻辑划分2. DWD数据明细层功能:为DW层提供来源明细数据,提供业务系统细节数据的长期沉淀,为未来分析类需求的扩展提供历史数据支撑建模方式...原创 2019-05-17 13:58:23 · 6308 阅读 · 0 评论 -
同仁数仓分层模型架构分享(1)
数据仓库的作用整合公司的所有业务,建立统一的数据中心。分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果。作为各个业务的数据源,形成业务数据互相反馈的良性循环。提供数据报表,用于公司的决策支持等等。数据仓库的架构数据采集层:数据采集层的任务就是把数据从各种数据源中采集和存储到数据库上,期间有可能会做一些ETL(抽取extra,转化transfer,装载load )操作。数据...原创 2019-05-22 10:55:47 · 607 阅读 · 0 评论 -
数仓架构实践3:苏宁售后体系四层模型架构
原始借鉴方案1. 复制层(SSA,system-of-records-staging-area)SSA 直接复制源系统(比如从mysql中读取所有数据导入到hive中的同结构表中,不做处理)的数据,尽量保持业务数据的原貌;与源系统数据唯一不同的是,SSA 中的数据在源系统数据的基础上加入了时间戳的信息,形成了多个版本的历史数据信息。也叫登台区。2. 原子层(SOR,system-of-rec...原创 2019-05-22 16:06:23 · 1693 阅读 · 0 评论 -
同仁数仓分层模型架构分享(2)
不知其来源出处,感觉是一字一字码出来的经验之谈,特分享与此。 分层案例 1.电信通讯stage层 ->bdl层 ->analysis层2.传统金融/保险ods层 ->pdm层 ->dm层3.互联网金融/电商odl层 ->bdl层 ->idl层 ->adl层尽管行业不同,但套路却差不多。 专业术语 ODL层 (Operational...原创 2019-05-22 17:13:12 · 628 阅读 · 0 评论 -
同仁数仓分层模型架构分享(3)
文章在京东系数据仓库建设方案的基础上,加上自己独特的理解,很能给人以参考和启发。原作者:hxiao1317098 原文:https://blog.youkuaiyun.com/hxiao1317098/article/details/73623690 对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统...原创 2019-08-01 08:47:57 · 401 阅读 · 0 评论 -
数仓概念理解精华汇整(1)
数据仓库更多代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。现在所谓的大数据更多的是一种数据量级的增大和工具的上的更新。 两者并无冲突,相反,而是一种更好的结合。ODS全称是Operational Data Store,操作数据存储;这一层面的数据却不等同于原始数据。在源数据装入这一层时,要进行诸如去噪(例如去掉明显偏离正常水平的银行刷卡信息)、去...原创 2019-08-30 18:48:54 · 440 阅读 · 0 评论 -
数仓架构实践2:京东四层模型架构
京东数仓大致分四层架构BDM:数据缓冲层,与源系统保持一致,相当于传统数仓的ODS。FDM:基础数据层,按主题设计,数据融合,存放明细历史数据,相当于传统数仓的EDW。GDM:通用汇总数据层,明细粒度,可以查询到具体字段信息;数据的预关联,预汇总和预加工;依赖对应用的共性提炼,而不是某个具体应用。ADM:聚合数据层,应用层。面象应用按需定制。1:数据缓冲层(BDM)源业务系统数据的...原创 2019-05-17 14:21:31 · 8194 阅读 · 0 评论 -
基于Mysql源数据的数仓表结构整理
1、简单的表结构信息查看SELECT a1.table_name 表名, a1.TABLE_ROWS 记录条数, a1.TABLE_COMMENT 表注释, a2.COLUMN_NAME 列名, a2.COLUMN_TYPE 数据类型, a2.IS_NULLABLE 是否为空, a2.COLUMN_DEFAULT 默认值, a2...原创 2019-03-21 15:16:14 · 1247 阅读 · 0 评论 -
关于目前某游戏直播平台数仓建设规划的思考2
环境说明:阿里云E-MapReduce,主要启用Hive工具作为数仓的载体,热数据存储在hdfs上,冷数据及规模数据存储在阿里云oss上。ETL采用python编码及封装HQL、sqoop、dataX,最后由airFlow统一进行调度。分层架构:结合传统行业及移动互联网行业的不同特点,及大数据平台下数仓建设的实际,分三层进行数仓的构建,分别是操作数据存储ODS层、数据仓库层DWH、集市数...原创 2019-02-20 14:31:26 · 902 阅读 · 1 评论 -
大数据环境平台仓库日常跑批整理
1、树型目录环境/home/hs/opt/dw-etl│ date.list│ dw_batch.sh│ sor-all.sh│ sor-rds.sh│ ssa-all.sh│├─bigtab_int│ init-99dianzhangitem.sh│ init-99dingdan.sh│ init-99dingd原创 2016-03-24 16:41:09 · 2399 阅读 · 0 评论 -
大数平台数据仓库处理对应的总控调度
与[大数据平台用于生成数据跑批脚本的脚本(version3.0)]对应。1、定时执行情况[hs@master dw-etl]$ crontab -l*/5 * * * * sh /home/hs/opt/dw-etl/etl-script/qrt/qrt-minute_batch.sh0 * * * * sh /home/hs/opt/dw-etl/etl-script/q原创 2016-06-24 17:56:01 · 914 阅读 · 0 评论 -
【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路
原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B摘要:在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,原创 2016-07-22 14:42:32 · 3670 阅读 · 0 评论 -
开源MySQL数据仓库解决方案:Infobright
Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因原创 2016-07-04 19:34:24 · 7450 阅读 · 1 评论 -
大数据环境平台DW部分目录路径(final)
.├── bigtab_int│ ├── suppertable_int_batch.sh│ └── suppertable_int_script│ └── db99store│ ├── dwsrc2ssa_99_order.sh│ ├── sor_proc_hive+mysql_99_order.sh│原创 2016-07-18 15:05:35 · 867 阅读 · 0 评论 -
大数据平台新加接口表(或接口表表结构变更)脚本更新及数据初始化
与大数据平台用于生成数据跑批脚本的脚本(version3.0)对应。1、目录路径[hs@master manual_proc]$ pwd/home/hs/opt/dw-etl/manual_proc[hs@master manual_proc]$ tree -f.├── ./cstab_str+data_update.sh├── ./manual_update_原创 2016-06-24 17:19:42 · 1512 阅读 · 0 评论 -
大数据平台用于生成数据跑批脚本的脚本(version3.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate [hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./bigtable-create_allstage_suppertab_int_sc原创 2016-06-24 16:20:43 · 3069 阅读 · 0 评论 -
大数据平台用于生成数据跑批脚本的脚本(version2.0)
一、脚本文件路径[hs@master script_generate]$ pwd/home/hs/opt/dw-etl/script_generate[hs@master script_generate]$ tree -f.├── ./batch_table.list├── ./etl_table_list_update.sh├─原创 2016-06-01 15:46:29 · 17958 阅读 · 0 评论 -
源系统表结构比对跟踪并进行邮件发送
在这里源系统均为mysql数据库,并将每日的表结构信息拉取到目标mysql数据库中;在目标mysql库中通过存储过程代码查询出两日内表结构之间的差异,并通过python脚本使用邮件将相关信息发送给相关人员。1、数据拉取、装载、mysqlsp运算及邮件发送调度的shell脚本路径:/home/hs/opt/dw-etl/tabsrc_strurecord/srctab_stru_pull.s原创 2016-04-01 07:05:56 · 2019 阅读 · 0 评论 -
初识DataLake数据湖
维基百科对Data lake的解释:数据湖是一种在系统或存储库中以自然格式存储数据的方法,它有助于以各种模式和结构形式配置数据,通常是对象块或文件。数据湖的主要思想是对企业中的所有数据进行统一存储,从原始数据(这意味着源系统数据的精确副本)转换为用于报告、可视化、分析和机器学习等各种任务的转换数据。湖中的数据包括结构化数据从关系数据库(行和列),半结构化数据(CSV、XML、JSON的日志),非结...原创 2017-12-14 15:18:05 · 13135 阅读 · 0 评论 -
关于目前某游戏直播平台数仓建设规划的思考
大数据平台etl:sqoop、dataX,及airflow;python串联sql。sqoop、dataX进行数据的抽取及传送;airflow进行调度;用python进行封装和编码。游戏直播公司的数据仓库分层设计:贴源设计的ODS层;主题设计的数据整合层;按需维度设计的集市层。贴源ODS层数据分为两大类,一类是来源于业务系统数据库、一类是来源于日志,包括系统access log日志及因业...原创 2018-08-02 19:38:43 · 1233 阅读 · 0 评论 -
关于目前某游戏直播平台数仓建设规划的思考3
DWH层初始的想法是分主题后再按范式及维度进行建模,但今天跟一个同行【大搜车】聊到他们在这一层的做法是:先做基于明细级别的多维度宽表,这个宽表包含事务主键、维度、指标以及对应的属性字段数据,然后再进行按天的数据粒度汇总。现在回想起在苏宁的数仓做法,及另一前同事在天源迪科的数仓建模描述,也是大致按这种方式进行的。所以,综合考虑,可能要舍弃【思考2】中在DWH中两种建模方式的表述,统一采用宽表的建模...原创 2019-02-27 17:46:01 · 805 阅读 · 0 评论 -
美丽说基础数据建设迎来“数据仓库+“时代
“互联网+”火了,但是互联网+的最先应用成熟的当属互联网+零售行业,也就是我们现在日常生活中赖以生存的电子商务。尽管天猫和淘宝已经足够大,但是也不能满足全部用户的需求,于是乎,专注于女性时尚购物生活的美丽说应运而生,成为垂直电商领域的佼佼者。官方对美丽说的定位是:致力于为女性用户提供最美丽的时尚购物体验,用最好的互联网技术为她们解决"怎么穿,哪里买"的问题。 美丽说垂直电商火了,业务量的不断原创 2016-01-29 14:07:15 · 1863 阅读 · 1 评论