20世纪60年代,从文件处理演化到数据库系统;
20世纪70年代,演化到关系数据库,联机事务处理(OLTP)将查询看做只读事务;
80年代中期到现在,研究分布性、多样性和数据共享等问题,还有基于Internet的全球信息系统;
80年代后期到现在,出现的数据库结构是 数据仓库,可将多个一种数据源在单个站点以统一的模式组织存储;数据仓库技术包括 数据清理、数据集成 和 联机分析处理(OLAP);数据仓库通过数据处理、数据变换、数据集成、数据装入、和定期数据刷新来构造;
90年代到现在,基于Web的数据库系统,基于XML的数据库系统和Web挖掘;
有趣的模式表示知识。模式兴趣度的客观度量有 规则的支持度(support)(满足规则的样本百分比)和置信度(confidence)(规则成立的条件概率P(Y|X) ),通常与阈值关联。
数据挖掘研究还发表在 数据库、统计学、机器学习和数据可视化 的杂志上。
据统计 在一个完整的数据挖掘过程中 数据预处理要花费 60%左右的时间 而后的挖掘工作仅占总工作量的 10%左右 数据预处理主要包括数据清理,集成和归约 .
数据清理是处理数据中的遗漏和清洗脏数据 .
数据集成将多数据源中的数据进行合并处理 解决语义模糊性并整合成一致的数据存储 .
数据归约将辨别出需要挖掘的数据集合 缩小处理范围 .