绪论
为什么进行数据挖掘?
(1)已获得的大量数据往往是数据丰富但信息贫乏的
(2)计算设备变得廉价且功能强大
(3)没有强大的工具的话,数据量已经超过人类的理解能力
(4)数据收集存储的速度越来越快
(5)传统技术已经不适用于原始数据
(6)数据挖掘有助于科学研究
什么是数据挖掘?
从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息或知识的非平凡过程。
数据源必须是真实的、大量的、含噪声的;
发现的是用户感兴趣的知识;
发现的知识要可接受、可理解、可运用;
并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
数据挖掘从商业的角度可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法
数据仓库:
高质量的挖掘结果依赖于高质量的数据,数据仓库为数据挖掘准备了良好的数据源,因此,数据仓库是数据挖掘的最佳环境。
挖掘什么样的知识?数据(Data) 、信息(Information)和知识
数据挖掘技术是如何把它们有机的结合在一起的?
从数据、信息和知识三个层面上看,数据是最原始的未经组织和处理的信息源 。信息或称有效信息是指对人们在某些方面有价值的东西。知识是一种现实世界信息的抽象和浓缩