
数据仓库
文章平均质量分 76
guofeng_0
这个作者很懒,什么都没留下…
展开
-
数据仓库-Hadoop
数据仓库-Hadoop大数据定义Hadoop简介Hadoop构成Hadoop主要特点Hadoop架构Hadoop基本组件大数据定义所谓大数据就是这样一个数据集合,它的数据量和复杂度是传统数据处理应用无法应对的。大数据带来的挑战包括:数据分析、数据捕获、数据治理、搜索、共享、存储、传输、可视化、查询、更新和信息安全等。大数据更像是一套处理数据的方法和解决方案。换句话说普通软件没办法可以在容忍的时间范围内完成大数据的捕获和处理。现在普遍认可的大数据具有4Vvolume 数据量大velocity原创 2021-01-07 16:00:20 · 409 阅读 · 0 评论 -
数据仓库-Data Vault模型
数据仓库-Data Vault模型Data Vault模型简介Data Vault模型的组成部分中心表链接表附属表Data vault模型的特点Data vault模型的构建Data vault模型示例Data Vault模型简介一种数据仓库建模方法,用于存储来自多个操作型系统的完整的历史数据。每个数据行都包含数据来源和装载时间属性,用以审计和跟踪数据值所对应的源系统。Data Vault(DV)模型用于企业级的数据仓库建模,是Dan Linstedt在20世纪90年代提出的。在最近几年,获得很多关注原创 2021-01-07 14:59:50 · 4552 阅读 · 0 评论 -
数据仓库-设计基础
数据仓库-设计基础数据模型关系数据模型关系数据模型中的结构关系完整性数据模型关系数据模型、多维数据模型和Data Vault模型关系数据模型关系模型由E.F.Codd在1970年提出的一种通用数据模型。由于关系数据模型简单明了,并且由坚实的数学理论基础。关系模型被广泛用于数据处理和数据存储。尤其在数据库领域,现在主流的数据库管理系统几乎都是以关系模型基础实现的。关系数据模型中的结构关系属性属性域元组关系数据库关系表的属性关系数据模型汇中的键关系完整性未完待续...原创 2021-01-05 15:55:10 · 788 阅读 · 0 评论 -
数据仓库-数据仓库需求
数据仓库-数据仓库需求基本需求安全性可访问性自动化数据需求准确性时效性历史可追溯性基本需求数据仓库的目的就是能够让用户方便地访问大量数据。允许用户查询和分析其中的业务信息。要求数据仓库是安全的、可访问的、自动化的。安全性适当的授权机制对于用户数据是只读的划分数据安全等级,公开、机密、秘密、绝密制定访问控制方案,那些用户访问哪些数据设计授予、回收、变更用户范文权限方法添加对数据访问的审计功能。可访问性指的是用户访问和检索数据的能力数据仓库最终用户通常是业务人员、管理人员、数据分原创 2021-01-05 15:19:21 · 676 阅读 · 0 评论 -
数据仓库-抽取-转换-装载
数据仓库-抽取-转换-装载抽取-转换-装载数据抽取逻辑抽取全量抽取增量抽取物理抽取联机抽取脱机抽取变化数据捕获数据转换数据装载开发ETL系统的方法常见的ETL工具抽取-转换-装载ETL是Extract、Transform、Load三个英文单词的首字母简写。中文是抽取、转换、装载ETL是建立数据仓库最重要的处理过程,也是最体现工作量的环节。一般会占到真个数据仓库项目的工作量的一半以上。建立数据仓库,需要将多个异构的源系统的数据集成在一起,放置于一个集中的位置用于数据分析。ETL系统的工作就是把异原创 2021-01-05 14:50:40 · 1450 阅读 · 0 评论 -
数据仓库-架构
数据仓库-架构基本架构主要数据仓库架构数据集市架构独立数据集市架构另外一种数据集市是从属数据集市Inmon企业信息工厂架构Kimball数据仓库架构混合型数据仓库架构操作数据存储ODS作用基本架构架构是什么?在软件行业普遍接受的架构定义是,指系统的一个或多个结构,包括软件的构建,构建外部可以看到的属性以及他们之间的相互关系。把数据仓库架构理解成构成数据仓库的组件及其之间的关系。数据仓库架构如图操作型系统由各种形式业务数据组成这其中可能有关系数据库、TXT、CSV、HTML、XML、还可能有原创 2021-01-05 14:02:51 · 1039 阅读 · 0 评论 -
数据仓库-简介
数据仓库-简介数据仓库定义建立数据仓库的原因为什么不直接访问业务系统用于数据分析使用数据仓库的好处操作型系统与分析型系统操作型系统分析型系统数据仓库定义20世纪80年代,IBM研究人员开发出“商业数据仓库”。本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。数据仓库之父Bill Inmon在1991年出版的Building the data warehouse一书中首次提出被广泛认可的数据仓库定义。面向主题主题是一个抽象的概念,与业务相关的数据的类型,每一个主题基本对应一原创 2021-01-03 17:55:27 · 609 阅读 · 0 评论 -
数据仓库之主题模型之IBM与TD金融模型
数据仓库之主题模型之IBM与TD银行模型IBM与TDIBM BDWM (Banking Date Warehouse Model)TD FS-LDM (Financal Services Logical Data Model)IBM 银行九大主题模型主题模型主题名称英文缩写主题描述关系人IP银行业务开展过程中的各相关方,包含个人、机构、柜员(个人理解:业务开展系统碰到的各类实体,包含客户、职员、机构、团体、组织)合约AR各参与者在参与过程中达成的各类条款,原创 2020-08-21 14:12:07 · 7297 阅读 · 0 评论 -
数据仓库之建模过程之业务调研
数据仓库之建模过程之系统调研数据仓库的数据来源自各个源业务系统,不同业务系统使用不同的数据库,不同的物理表结构。为了创建统一的数据仓库系统,需要了解各个业务系统的具体情况。系统调研流程明确需求和确认调研系统范围。针对各个业务系统建立畅通的源系统沟通机制,保证仓库建模人员对系统有足够深入的了解。可以提前列举调研提纲,需要确认的问题提前发给对应系统的联络人员,减少沟通次数,提高沟通效率。针对不同业务回复的问题内容,记录问题汇总表以及相关会议纪要,可供其他系统调研人员使用。...原创 2020-08-20 15:26:01 · 1232 阅读 · 0 评论 -
数据仓库之模型评估与优化
数据仓库之模型评估模型数据全面性模型数据应具备满足各个应用的需求以及未来潜在需求的能力。模型数据应该保证任意时点的历史数据可追溯的能力。模型数据应能全面满足基于模型支持准入原则所确定的应用 。模型数据准确性模型数据应能正确反应业务与数据之间关系。模型数据应保证模型加工逻辑正确,和源系统数据保持一致 。模型数据应可以提供给下游数据的准确性。模型数据可访问业务人员应该方便查询和使用。技术人员应该容易理解表之间关系。模型数据时效性数据对外服务时间应该满足业务需要。模型和设原创 2020-08-19 17:45:26 · 2525 阅读 · 0 评论 -
数据仓库存储方式之拉链表简介
数据仓库存储方式拉链表简介拉链表简述拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。(百度百科)拉链表应用场景数据量比较大,变化频率变化比例不高。例如2000万条数据,每天只有10万条数据发生改变。如果按照一年来计算。每天全量不变的情况下,2000万*365=730000万条数据,73亿条数据。如果以拉链的方式,则数据量为2000万+3650万=5650万条,节约1原创 2020-08-19 16:21:16 · 1639 阅读 · 0 评论 -
数据仓库整合各系统码表和参数表
数据仓库整合各系统码表和参数表在建立数据仓库时,需要调研涉及到各个源系统,根据各源系统的码值,可分为如下几种类型,针对不同类型的代码做整合。各码表及参数表类型通用类代码通用代码,包含有行政区划、币种、行业分类、国别与地区等。GB/T 2260-2007 中华人民共和国行政区划代码GB/T 2659-2000 世界各国和地区名称代码GB/T 4754-2017 国民经济行业分类GB/T 12406-2008 表示货币和资金的代码...原创 2020-08-18 11:57:51 · 3937 阅读 · 1 评论