
数据仓库
文章平均质量分 61
小狼躲藏
专注于数据仓库、治理、数据分析领域
展开
-
【CDGP】如何识别主数据?
主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息。并且主数据应该代表与关键业务实体有关的权威的、最准确的数据。个人和组织,以及他们所扮演的角色,如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。(如果是短期使用,一般不作为主数据。财务体系,如合同、总账、成本中心、利润中心。产品和服务,包括内部和外部的产品及服务。哪些数据被用来描述人、组织、地点和事物。哪些角色、组织、地点和事物被反复引用。这一点非常非常重要!...原创 2022-08-31 11:32:05 · 661 阅读 · 1 评论 -
【数据仓库】-多问数仓
Q1:对于数据仓库的理解,数据仓库解决什么问题?1. 数据仓库可以理解为一个大的数据集合,它的功能是面向数据分析和决策支持;2. 数据仓库不生产数据,它所有的数据都是同步自业务系统,而众多业务系统数据会面临着分散,异构,多源性等问题,不便于进行数据分析,所以就需要数据仓库来对生产数据进行整合、处理后再对用户进行提供,提升用户对数据的提取效率;3. 从数据仓库定义来看,它是一个面向主题的,集成的,相对稳定和反应历史变化的数据集合,也较好的说明了数据仓库的特点和对分析场景的支持;Q2:...原创 2021-04-26 10:42:35 · 363 阅读 · 0 评论 -
一个真实的数仓项目总结
背景1.公司业务整合,指标管理混乱,数据不一致问题严重,另外指标的开发和迭代效率也比较低;2.举措:进行集团指标认证,数据指标重新开发;建设前面临的问题1.指标非常多,业务复杂,变化快;2.人少,排期紧张,如果提高开发效率;3.核心诉求满足:数据一致性;数据开发效率高,响应快;用户理解使用效率高;入手点1.面向需求,采用维度建模;2.参考OneData方法论进行指标设计思考,解决指标一致性问题(同名同义,异名异义)3.参考OneModel规范定义的思考..原创 2021-03-18 13:09:12 · 1688 阅读 · 0 评论 -
【数据仓库】- 数据分层
目录一. 数据分层的原因二. 数据分层的意义三. 如何设计数据分层四. 数据分层的思考一. 数据分层的原因首先从宏观上来讲,数据分层是为了更好的去组织、管理、维护和使用数据。为了达到以上目的,采用了数据解耦的方式来实现,而数据分层就是解耦的方式之一,另外一种方式就是主题域划分。数据分层不是为了分层而分层,分层是为了解决ETL任务及工作流的组织、数据的流向、读写权限的控制、不同场景满足等各类实际问题的。越上层的模型,聚合程度越高,对数据应用越友好,但可理解程度就越低。越偏近底层原创 2021-03-10 18:21:02 · 1928 阅读 · 1 评论 -
【模型评审】- 模型记分卡
知识关键点√ 数据模型记分卡是一种积极,有效的数据模型质量评价方法。√ 在数据建设初期使用记分卡可以有效降低返工几率,即便一些新手也可以对数据模型提出改进意见。√ 记分卡并非专用性技术,可以在任何项目中加以应用。 在数据质量管理中经常容易被忽略的一个问题就是数据模型的质量。在项目开发过程中,我们经常以数据库设计为单一目标,而进行快速的数据模型构建,然而数据模型的意义却是深远,持久的。数...原创 2019-06-04 09:20:57 · 1860 阅读 · 0 评论 -
数据仓库实施步骤与关键成功因素
转载 2016-10-10 15:29:06 · 410 阅读 · 0 评论 -
维度建模的10大基本原则
遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。 原则1、载入详细的原子数据到维度结构中 维度建模应该使用最基础的原子数据进行填充,以支持不可预知的来自用户查询的过滤和分组请求,用户通常不希望每次只看到一个单一的记录,但是你无法预测用户想要掩盖哪些数据,想要显示哪些数据,如果只有汇总数据,那原创 2016-10-10 15:27:32 · 2699 阅读 · 0 评论 -
数据仓库建设中的数据建模方法
一. 什么是数据模型 数据模型是抽象描述现实世界的一种工具和方法, 是通过抽象的实体及实体之间联系的形式, 来表示现实世界中事务的相互关系的一种映射. 数据模型表现的抽象的是实体和实体之间的关系, 通过对实体和实体之间关系的定义和描述, 来表达实际的业务中具体的业务关系, 通过对实体和实体之间关系的定义和描述, 来表达实际的业务中具体的业务关系. 数据仓库模型是数据模型中针对转载 2016-10-10 15:17:15 · 794 阅读 · 0 评论 -
腾讯数据仓库 -- 平台综述
腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象,必然会成为数据大户。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,对于大数据分析和挖掘的重视程度高于以往任何时候,如何从大数据中获取高价值,已经成为大家关心的焦点问题。在这样的大背景下,为了公司各业务产品能够使用更丰富优质的数据服务,近年腾讯大数据平台得到迅猛发展。转载 2016-10-10 09:49:28 · 1825 阅读 · 0 评论 -
腾讯-- TDW数据仓库数据安全
互联网时代,大数据扮演着极为重要的角色;腾讯作为中国最大社交平台,具备最具权威、代表性的互联网大数据。数据平台部TDW作为公司级的海量数据存储和计算平台,集中了公司90%以上产品(近400款)的核心数据,覆盖全部BG,积累约4000个开发者,如何保障如此之多的用户安全合理地使用这么丰富珍贵的数据?本文将从数据生命周期(传输—>存储—>使用)角度揭密数平的数据安全体系如何为腾讯大数据保驾护航。转载 2016-10-10 09:58:55 · 1377 阅读 · 0 评论 -
数据仓库--名词解释
1. ODS(Operational Data Store) ODS 为企业提供及时的, 操作型的, 集成的数据集合, 具有面向主题性, 集成性, 动态性, 及时性,明细性等特点. ODS 作为数据库到数据仓库的一种过渡形式, 与数据仓库在物理结构上不同, 能提供高性能的响应时间, ODS设计采用混合设计方式.ODS中的数据是"实时值", 而数据仓库的数据却是"原创 2016-10-09 18:36:47 · 6328 阅读 · 0 评论 -
构建企业级数据仓库的五步法
一. 确定主题 即确定数据分析或前端展现的主题(例如:某年某月某地区的啤酒销售情况). 主题要体现出某一方面的各分析角度(维度)和统计数值型数据(量度)之间的关系, 确定主题时要综合考虑. 二. 确定量度确定主题后, 需要考虑分析的技术指标(例如: 年销售额等). 它们一般为数值型数据, 其中有些度量值不可以汇总; 有些可以汇总起来, 以便为分析者提供有用的信息. 量度转载 2016-10-09 18:10:12 · 1785 阅读 · 0 评论 -
ETL架构师面试题
本部分的题目来自Kimball的ETL Toolkit著作,原著未直接给出答案。这里的中文题目和答案是我参考其原著按自己的理解整理而来的,仅供参考。对于其中不确切的地方,欢迎大家一起沟通。有兴趣的朋友可以直接阅读原著。分析1.什么是逻辑数据映射?它对ETL项目组的作用是什么?2.在数据仓库项目中,数据探索阶段的主要目的是什么?3.如何确定起始来源数据?架转载 2016-10-09 17:36:56 · 561 阅读 · 0 评论 -
基于BI应用的数据仓库建模归纳
前言: 至于数据仓库架构该怎么建, 怎么优化, ETL怎么设计, 维度模型设计技巧等, 不在此讨论范围, 独立的讨论对于BI从业者来说如同天书, 不会有太多的感受和深入理解的, 因为太抽象, 很难与实际项目相结合. 另外关于数据仓库构建是"数据驱动", 还是"业务驱动", 通过本文会有一些见解. 开篇: 首先数据仓库有两大功能: 一是企业数据的整合与历史信息的存储; 二是支持转载 2016-10-09 17:13:48 · 1174 阅读 · 0 评论 -
数据仓库与操作数据库的差异
数据仓库的定义并没有统一的说法, 通常人们认可的概念是: 面向主题的, 集成的, 稳定的, 时间的数据集合, 支持管理者的决策过程. 数据仓库中的数据面向分析处理而组织, 而面向事务处理型的数据库是日常操作型应用, 不能满足决策分析要求.又数据仓库是面向决策分析型的特点可以概括出数据仓库的四个基本特征: 1. 数据仓库的数据是面向主题的;2. 数据仓库的数据是集成的;3. 数据仓库原创 2016-10-09 16:32:32 · 2206 阅读 · 0 评论 -
什么是大数据?漫谈大数据仓库与挖掘系统
什么是大数据?漫谈大数据仓库与挖掘系统任何比较关注业界新闻的人,都会知道近两年数字信息领域的几个关键字: 移动端、LBS、SNS和大数据(Big Data)。前边三个,大家应该是很熟悉的,因为身边早已充斥着相关的应用。唯独最后一个大数据,在大部分人眼中却是非常陌生的,除了知道如数据挖掘、智能推荐等几个看似非常高深的词汇之外,却是不知其里的。 本文作者忽悠真人是阿里巴巴集团数据平转载 2016-10-09 16:12:02 · 809 阅读 · 0 评论