
数据仓库与数据处理
文章平均质量分 77
Hi洛一
Talk is cheap.Show me the code
展开
-
数据仓库设计
维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同的维度去分析同一个事实表 得出不同的分...原创 2020-02-25 10:58:48 · 218 阅读 · 0 评论 -
数据仓库设计
数仓设计 维度建模 以维度为标准 开展数据的分析需求 适用于面向分析领域的理论。比如分析型数据库 数据仓库 数据集市(OLAP) 事实表 分析主题的客观事件度量 是分析主题的数据聚集 事实表中一条记录往往对应着客观的一个事件往往是一堆主键的聚集 维度表 所谓的维度就是指看待问题的角度 可以通过不同的维度去分析同一个事实表 得出不同的分...原创 2020-01-13 11:20:55 · 293 阅读 · 0 评论 -
数仓知识07_数据仓库建模(数据立方体和三种模式)
数据仓库建模(数据立方体和三种模式)1.数据立方体(data cube)(1)常用概念数据立方体:数据立方体允许以多维对数据建模和观察。实际是N维结构,可以简单看做3-D集合结构维:一个单位想要记录的透视或者实体例如:一个数仓sales记录商店的销售设计维time、item、branch和location维度表:每个维都可以有一个与之相关联的表,里面会有相关的属性(字段)该...原创 2019-12-19 22:35:36 · 4041 阅读 · 6 评论 -
数据仓库DW、ODS、DM及其区别总结
一、基本概念DW数据仓库(Data Warehouse):是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。ODSODS:是一个面向主题的、集成的、可变的、当前的细节数据集合,用于支持企业对于...原创 2019-12-18 22:26:36 · 11939 阅读 · 1 评论 -
数仓知识10_数据泛化
数据泛化(面向属性的归纳;个性–>一般化)1.定义数据泛化:把较低层次的概念层(例如:年龄的数值范围)用较高层次的概念(例如:青年、中年和 老年)替换来汇总数据。或者通过减少维度在设计较少维度的概念空间汇总数据(例如汇总学生组群时,删除生日和电话号码属性)2.两种泛化方法(1)基于数据立方体的数据聚集(data focusing):a.复杂数据类型和聚集数据仓库和OLAP工具基于...原创 2019-12-19 22:41:27 · 3782 阅读 · 0 评论 -
数仓知识09_数据仓库的实现(计算和OLAP)
数据仓库海量数据–>OLAP服务器在数秒内回答决策支持查询因此数仓要支持高校的数据立方体计算技术、存取方法和查询处理技术1.数据立方体的有效计算核心:有效计算多维集合上的聚集(分组),每个聚集(分组)用一个方体表示,分组的集合形成定义数据立方体的方体的格。(1)computer cube操作和维灾难一种方法是扩充SQL使之包含computer cube操作,这个操作在操作制...原创 2019-12-19 22:39:39 · 661 阅读 · 0 评论 -
数仓知识08_数仓设计步骤和使用
1.数仓优势提供相关信息进行分析和性能估计,提高行业竞争优势提高企业生产力。可以快速收集准确描述组织机构的信息有利于客户联系管理,因为他跨越所有商务、所有部门和市场可以降低成本。通过可靠的方式进行长期趋势跟踪,发现异常。2.商务分析框架(4种视图)建立数仓前需要分析商务需求,搭建商务分析框架。a.自上向下视图:选取数仓所需信息,包括现在和未来的相关需求b.数据源视图...原创 2019-12-19 22:37:51 · 258 阅读 · 0 评论 -
数仓知识06_数仓的三层结构和三种模型
(一)、三层结构(1)底层:仓库数据库服务器(基本是一个关系型数据库)由ods或者其他外部数据源提取数据,放入底层。ETL工具和程序进行数据提取、数据清洗和变换(例如:将来自不同数据源的数据合并成一致的格式),已经装入和刷新,以更新数据仓库。数据提取方式:信关程序a.信关(使用后端程序或者工具提取数据):信关由DBMS支持,允许产生SQL代码例如:微软的ODBC(开放数据库...原创 2019-12-18 22:04:44 · 1894 阅读 · 0 评论 -
数仓知识01_相关名词解释(英文缩写
随着大数据的到来,经常听到相关的词汇,维度、指标、BI、PV、UV等等,今天整理了这些词汇。1. DWDW是Data Warehouse的缩写,即数据仓库。DW要区别于普通数据库,数据仓库用于支持决策,面向分析型数据处理;而普通数据库主要服务于软件/网站,对于一致性/事物要求较高。数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操...原创 2019-12-18 21:54:58 · 1796 阅读 · 0 评论 -
数据预处理03_ 数据集成
数据集成数据集成就是将多个数据源中的数据合并,存放在一个一致的数据存储中:如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。1.实体识别问题:实体识别问题就是要合理匹配来自多个信息源的等价实体。例如:如何确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以...原创 2019-12-18 21:48:14 · 1316 阅读 · 0 评论 -
数据预处理03_ 数据集成
数据集成数据集成就是将多个数据源中的数据合并,存放在一个一致的数据存储中:如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。1.实体识别问题:实体识别问题就是要合理匹配来自多个信息源的等价实体。例如:如何确信一个数据库中的customer_id和另一个数据库中的cust_number指的是相同的属性?每个属性的元数据包括名字、含义、数据类型和属性的允许取值范围,以...原创 2019-12-18 21:43:12 · 492 阅读 · 0 评论 -
数据预处理02_数据清理
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。- - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。- - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。- - 数据变换:(例如...原创 2019-12-18 21:26:10 · 684 阅读 · 0 评论 -
数据预处理01_脏数据产生的原因
一、预处理概述 预处理阶段主要做两件事情:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问...原创 2019-12-18 21:08:38 · 2992 阅读 · 0 评论 -
数据预处理的步骤
数据清理–>数据集成 —>数据归约–>数据变换1.数据清理就是处理脏数据,包括填写缺失值、清除噪声数据(降噪)、纠正不一致数据、识别或删除离群点等。常用工具例如:ETL工具2.数据集成(data integration)集成多个数据库数据。将数据由多个数据源合并成一个一致数据存储,如:数据仓库。【注意】不同数据库相同字段可能具有不同的名字,导致不一致和冗余,所以在为...原创 2019-12-18 20:45:58 · 9656 阅读 · 0 评论 -
数据分析OLAP与OLTP区别
OLAP:(On-Line Analytical Processing,联机分析处理)数据分析的目标则是探索并挖掘数据价值,作为企业高层进行决策的参考,通常被称为OLAPOLTP:(On-Line Transaction Processing,联机事务处理)业务类系统主要供基层人员使用,进行一线业务操作,通常被称为OLTP一、数据从何而来企业日常的各个环节都会产生数据,一...原创 2019-12-18 20:39:36 · 401 阅读 · 1 评论