1.1 什么是数据挖掘?
数据挖掘是从大量数据中发现有趣模式和知识的过程,它既不是一种广告宣传,也不是数据库、统计学、机器学习或模式识别发展而来的技术的简单转换或应用。
机器学习的不断发展,为数据挖掘提供了很好的数据分析技术基础,而统计学则帮助人们更好的理解数据的全貌,模式识别也在数据挖掘的过程中被广泛应用,因此,数据挖掘实际上是多种数据分析技术共同发展才得以发展壮大的,并且与这些技术相辅相成,互相促进。
如果把数据挖掘看作知识发现过程,则这一过程涉及以下步骤:
1.数据清理:消除噪声和删除不一致数据
2.数据集成:多种数据源可以组合在一起
3.数据选择:从数据库中提取与分析人物相关的数据
4.数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
5.数据挖掘:基本步骤,使用智能方法提取数据模式
6.模式估计:根据某种兴趣度度量,识别代表知识的真正有趣的模式
7.知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
1.2数据仓库与数据库有什么异同?
数据库与数据仓库的主要区别在于数据集的大小和对数据的处理方式。
数据库处理数据的主要方法是操作型处理,即联机事务处理OLTP(On-Line Transaction Processing),也可以称为面向交易的处理系统,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询和修改。用户较为关心操作的响应时间、数据的安全性、完整性和并发的支持用户数等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。
数据仓库处理数据的主要方