数据仓库与数据挖掘技术 陈京民

本文介绍了数据仓库的重要概念,如维、数据立方体、聚集等,指出立方体与星型模型可相互转换,不同情况处理效率有别。还阐述了数据仓库未来发展方向,包括基于关系对象数据库等。此外,说明了数据仓库的应用,涉及两类用户及知识挖掘者的数据分析过程,最后提及系统结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

... 前部分待补

 数据仓库的重要概念

维:  待补

数据立方体:

  当用户观察某一事物的角度不同时,围绕该事物会产生多个观察角度,也就是产生了多维。数据仓库中的多种维交点,就是数据仓库用户所需要观察的事务。例如:数据立方体中由客户、产品、时间三个维所构成的立方体表示哪些客户、在什么地方购买了那些产品。三个维的交点就是所购买产品数量或者价格等事务,也就是立方体的顶点。数据仓库的立方体实际上是一个包含用户需要观察数据的集合体,它提供企业所感兴趣的商业事务。在这里最重要的是购买的产品与价格等信息,这些信息构成了立方体的粒度,即维交叉时所导致的细节等级,如果某个客户购买了某种商品,结果就是一个基本粒度或原子事务。立方体作为基本事务的聚合,是一种适合通过SQL或者他接口进行查询的完整数据结构。一般而言立方体可以转换成星型模型,星型模型也可以转换成立方体。

  在数据仓库的实际应用中,高层的数据聚合存储采用立方体处理,效率较高。而细节为基础,维变化的上卷聚合采用星型模型处理效率更高并且更灵活,

  立方体也称为多维数据集。超过三维的立方体称为超立方体,或超维数据集。

 聚集 :

  聚集或者聚合是指收集了基本事务数据的结构。在一个立方体中包含了很多层次,这些层次可以向用户提供某一层次的概括数据。

 

数据仓库的未来发展 

1.基于关系对象数据库的数据仓库

关系对象数据库的初相使数据仓库设计人员有能力将对象引入数据仓库环境中。

关系数据库参考:http://wiki.ccw.com.cn/%E5%85%B3%E7%B3%BB%E6%95%B0%E6%8D%AE%E5%BA%93

        http://baike.baidu.com/view/68348.htm

2.网络影响

3.操作型数据库仓库,能以一种可以接受的标准对数据仓库进行操作。这些标准包括可预知性、可利用性和可访问性。

4.Web应用技术代理

数据仓库的应用

2类用户:信息使用者,知识挖掘者

数据仓库挖掘者数据分析的4个过程

1.概括分析:首先对数据仓库中的数据外部特征进行分析,确保数据的完整性和准确性,评价是否有充分的样本数据进行数据抽取、建模与分类处理。

  概括分析内容可能有:常来采购的客户性别比例多大?共有多少客户?经常进行采购的客户数量比例情况如何?客户的平均采购标准是多少?

2.数据抽取:根据知识挖掘的需要对数据仓库中的数据进行抽取。按照数据分析的目的,对这些数据进行组织,然后将组织好的数据送入数据集市或者知识挖掘库中。

3.建模分析:使用数据仓库的核心工作,是开发一种用于描述客户、产品或销售商模型的过程。在完成建模分析后,就可以利用所建的模型对数据仓库中的实体与模型的关联程度进行分类分析。

4.分类处理:根据挖掘出来的知识对数据库中的所有数据进行分类。分类的目的是针对不同的事务采取正确的对策,这也是知识挖掘者挖掘知识的最终目的。

 

数据仓库系统结构

 

 

转载于:https://www.cnblogs.com/VincentYan/archive/2009/05/26/1490168.html

企业信息化是一项革命性工程,本书以企业信息化为基点,介绍基于ERP数据仓库系统的概念、体系结构、开发方法及步骤。, 全书共分9章。第1章主要介绍企业信息化发展历程、数据库数据仓库概念、特点、区别、联系及数据仓库系统在企业应用概况;第2章介绍数据仓库开发工具——微软SQL Server 2000数据仓库体系结构及应用技术;第3章介绍数据仓库结构及其创建,包括数据仓库数据库、事实表、维度表及多维数据集创建;第4章介绍数据仓库开发完整过程,包括项目系统规划、用户需求确定、系统分析、系统设计、系统实现、系统试用及扩充;第5章介绍DTS基本概念、DTS包的创建、设置及使用,如何利用DTS包把数据源自动转入数据创库;第6章介绍OLAP的MDX表示实现,涉及OLAP的基本分析动作的MDX语言表示实现及OLAP的前端展现方式,提供了丰富的MDX语言程序实例;第7章介绍数据挖掘基础,主要包括数据发掘的概念、数据发掘技术、工具、方法及步骤;第8章介绍常用的知识发现技术数据挖掘方法,主要包括依赖性分析、聚类分析、基于神经网络的数据挖掘方法、基于遗传算法数据挖掘方法及基于粗糙集的数据挖掘方法;第9章介绍SQL Server 2000数据挖掘技术。, 本书注重工程实践性,实用性强,可以帮助读者全面掌握数据仓库构建数据挖的方法和步骤,开发出具有实用价值的数据仓库系统。, 本书适用于高等院校信息管理信息系统专业、电子商务专业、物流管理专业等相关专业本科生教材,也可作为金融类、管理类有关专业研究生教材,同时,对企事业单位数据仓库数据挖掘工作人员、研究人员有重要参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值