
数据仓库
conggova
数据库、大数据、数据仓库、数据挖掘
展开
-
关于数据仓库的分层
分层我更倾向于是一种模块化,模块之间可能有层次关系,也可能没有。每个模块在数据方面要有一个标准和规范,以期达到其目标。常见的划分ODS(操作型数据存储):主要为了实现接入数据的(原样)暂存。DWD\DW:DW层是为了实现数据的集成和标准化。这种集成可能有两种可能性:ER模型的集成和总线模型的集成;但是我觉得并不应该是非A既B的,在不同的业务上面可以选择不同的模型。这里面的数据应原创 2017-08-24 22:50:01 · 565 阅读 · 0 评论 -
Kimball关于维度的讲解摘要
维度表是用于描述环境的。谁、什么、哪里、何时、如何、为什么等等。列多,行少,多文本列。维度属性用于查询约束、分组、报表标识等。维度表中尽量使用文本描述。数据仓库的好坏直接取决于维度属性的设置,DW/BI的分析能力直接取决于维度属性的质量和深度。维度代理键:维度表的主键,不能采用操作型系统的自然键,避免出现不同业务系统的兼容性问题;为什么用代理键?原创 2017-08-24 22:58:37 · 984 阅读 · 0 评论 -
kimball的维度的缓慢变化总结
类型0 属性值不可能变 原样保留 费话类型1 重写 最容易实现 覆盖原值 同样的BI应用在变化前与变化后会产生不同的结果。以前的预聚合数据要重新计算。类型1不能反应历史。 慎用。比如一个人改名了,覆盖原值说得通。如果一个人换城市了,那么他在以前的城市做的事情当然不能归到现在的城市。 应该想清楚,新值能否直接取代原值。比如一个人的性别从未知到男,当然就可以直接取代。原创 2017-08-24 23:01:02 · 1233 阅读 · 0 评论 -
关于维度建模中的事实
事实表示某个业务的度量。事实表中的每一行对应一个度量事件,每行中的数据是一个特定级别的细节数据。 这个级别指粒度,有三类:事务、周期性快照、累积快照。事实根据可加性分三种:可加事实:如销售额半可加事实:如帐户节余不可加事实:如价格通常事实表的主键是外键的集合。事实表中的外键不能有空值。无事实的事实表:只有外键,没有数字度量。原创 2017-08-24 23:08:41 · 648 阅读 · 0 评论 -
关于数据仓库的主题
主题是对于数据仓库需求的高层次的概括和划分。同时一定程度上也是为了把数据仓库这么一个大的工程做横向拆分。但是并不一定要在每个主题上都单独建一个无关的数据仓库,在数据仓库的某些层次上面需要按主题分割,某些则不需要。根据这种理解,分析数据仓库的主题划分对于典型的数据仓库分层的影响。ODS数据接入层(数据):ODS层并不是面向主题的,不需要按主题划分。DW\DWD层:DW层是原创 2017-08-24 22:54:26 · 2954 阅读 · 0 评论 -
关于实体、信息与数据的关系
原创 2017-08-25 09:15:16 · 978 阅读 · 0 评论 -
基于实体分析的数据仓库构建方法
基本观点每一种建模都代表着一种观察世界的角度;这种角度的差异很难说什么好坏对错之分。关于数据数据本质是信息,数据之所以有价值是因为其中包含着我们想要的信息,不包含信息的数据没有价值。关于信息一条信息必然是关于某(个)些实体的;因为世界是由各种各样的实体构成的,不关于任何实体的信息即使存在也没有现实意义。关于实体实体是指客观世界存在的事物(不管是实际的,还是抽象的)。原创 2017-08-26 17:22:01 · 716 阅读 · 0 评论 -
数据分析、数据挖掘的本质
观点一,如上图所示,数据是信息的载体,信息是数据的本质观点二,任何对于数据的分析和挖掘的做法,实质上都是对于信息的加工和转换。观点三,在将信息记录成数据的过程中,可能产生信息的损失。观点四,在数据的传输过程中可能产生数据的损失,同时也就是信息的损失。观点五,在从数据还原成信息的过程中很可能产生理解的偏差,造成信息的损失。如上图所示,数据分析挖掘的过程也就原创 2017-08-26 17:44:42 · 1995 阅读 · 0 评论 -
数据清洗概要
数据清洗的目标使数据都是意义明确的、正确的、规范的;提高数据的可用性。 数据清洗的前提条件在数据清洗之前需要具备以下条件:1. 数据已经接入。2. 已经有基本的业务范围信息。3. 已经有基本的数据语义信息(表和字段说明)。4. 数据一致性校验已经完成(保证数据在传输过程中没有损失)。 数据清洗的四个方面1. 明确数据的业务范围 数据的业务范围的原创 2017-08-26 17:33:41 · 2281 阅读 · 0 评论