数据挖掘学习篇——数据挖掘的概念
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库,数据仓库,Web,其他信息存储库或动态地流入系统的数据。
数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(称做数据库)和一组管理和存储数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发,共享或分布式数据访问等。
数据仓库是一个是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
概括来说,数据仓库系统是指具有综合企业数据的能力,能够对大量企业数据进行快速和准确分析,辅助做出更好的商业决策的系统。它本身包括三部分内容:
1、数据层:实现对企业操作数据的抽取、转换、清洗和汇总,形成信息数据,并存储在企业级的中心信息数据库中。
2、应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。 3、表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
2、应用层:通过联机分析处理,甚至是数据挖掘等应用处理,实现对信息数据的分析。 3、表现层:通过前台分析工具,将查询报表、统计分析、多维联机分析和数据发掘的结论展现在用户面前。
存在大量的数据挖掘功能,包括特征化与区分,频繁模式,关联和相关性挖掘,分类和回归,聚类分析与离群点分析等。