
数据仓库
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
数据仓库中的三种事实表
在数据仓库领域有一个概念叫Transaction fact table,中文一般翻译为“事务事实表”。事务事实表是维度建模的数据仓库中三种基本类型事实表中的一种,另外两种分别是周期快照事实表和累积快照事实表。 事务事实表与周期快照事实表、累积快照事实表使用相同的一致性维度,但是它们在描述业务事实方面是有着非常大的差异的。 事务事实表记录的事务层面的事转载 2013-09-18 10:15:32 · 2008 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:数据的传输和同步
2013-10-10卡特 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】 在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一便是其的“集成性”:不同的数据来源、不同的形式的数据集中在一处,在数据仓库系统中进行分析。这便是一个数转载 2013-10-17 13:38:33 · 1645 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统
013-10-11 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】一切的开始—数据的传输和同步【回复073查看】 读过本文的前三个章节的读者,对大数据系统应该已经有了一个初步的认识,并且已经清楚的知道,大数据之庞大,已经远远超出任何一个单机系统的处理能力的极限,我们需要成千上万台计算机来协同工作,转载 2013-10-17 13:39:11 · 1494 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统--层次、维度与主题
2013-10-09阿里技术嘉年华 上集回顾:什么是大数据?【回复071查看】 在上一章节的末尾,我们谈到,这个系列的文章,最终会以我国公安机关拥有的公民信息、加上民航部门拥有的出行信息、银行拥有的交易信息等数据为例,逐渐讲述如何构建一个大数据的国民信息挖掘系统。不过以上一章节所叙述的基础知识,还不足以让我们进入实例环节。在这一章,我们还是必须补充一些相关的基转载 2013-10-17 13:37:39 · 1492 阅读 · 0 评论 -
淘宝大型数据仓库的治理(4)-数据安全不可控
2013-08-29 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列,本文是第四篇,回复数据仓库可查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据安全不可控”的问题,大数据时代,你值得关注。 此前数据安全的攻防重点都在业务系统上,对外要防止黑客攻击,防止其获取业务系统管理员身份盗取机密数据,转载 2013-10-16 13:26:21 · 1434 阅读 · 0 评论 -
淘宝大型数据仓库的治理(3)-维护成本高
2013-08-27 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章,本文是第三篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“维护成本高”的问题,大数据时代,你值得关注。 随着大数据时代的来临,数据的作用不再仅限于辅助运营决策,转载 2013-10-16 13:25:41 · 1413 阅读 · 0 评论 -
淘宝大型数据仓库的治理(2)- 数据质量不可靠
2013-08-26 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章,本文是第二篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据质量不可靠”的问题,大数据时代,你值得关注。 对于程序员来说,最头疼的就是听到:“大兄弟,你这个程序有B转载 2013-10-16 13:24:57 · 1472 阅读 · 0 评论 -
淘宝大型数据仓库的治理(1)- 数据需求响应慢 实时相应需求
2013-08-25 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列,本文是第一篇。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据需求响应慢”的问题,大数据时代,你值得关注。 数据仓库是继ERP之后失败率最高的IT项目。在项目还没立项的时候,会给老板呈现各种美好。而实施到一定阶段的时候,老板会发觉太多转载 2013-10-16 13:23:56 · 1569 阅读 · 0 评论 -
HIVE在腾讯分布式数据仓库实践
摘要:在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,HIVE,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的HIVE模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作;实现了基本的SQL功能,可扩充UDF/UDAF、...【优快云现场报道转载 2013-09-18 10:12:32 · 2249 阅读 · 0 评论 -
数据仓库维度建模笔记
数据仓库工具箱—维度建模的完全指南》是数据仓库建模方面的经典著作, 1996年第一版出版被认为是数据仓库方面具有里程碑意义的事件。作者kimballl是数据仓库方面的权威,他将多年的数据仓库建模实战经验、技巧融入本书。他提出的许多维度建模概念被广泛应用于数据仓库的设计和开发中。2002年本书出版了第二版。这是一部非常好的数据仓库建模的书,前后完整的读了三遍,受益匪浅。以下笔记将本按四个部分转载 2013-09-18 10:14:18 · 1742 阅读 · 0 评论 -
漫谈大数据仓库与挖掘系统:BSP模型(应用于数据挖掘、机器学习的云计算模型)
2013-10-22卡特 阿里技术嘉年华本文其它章节: 漫谈大数据仓库与挖掘系统:前言:大数据的价值 【回复071查看】 漫谈大数据仓库与挖掘系统:层次、维度与主题【回复072查看】 漫谈大数据仓库与挖掘系统:ETL的开始—数据的传输和同步【回复073查看】 漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统【回复074查看】转载 2013-10-23 09:15:14 · 2828 阅读 · 5 评论