数据类型
对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。
1、数据库数据:最常见、最丰富、最主要
数据库系统(DBMS)由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。
关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(或称为字段、列),并且通常存放大量元组(或称为记录、行)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。
ER数据模型:将数据库表示成一组实体和他们之间的联系。
关系数据通过数据库查询访问,查询语言为SQL。
2、数据仓库数据
数据仓库(Data Warehouse)是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。