数据挖掘 Chapter 1
数据挖掘的核心是从应用数据中发现有趣的模式
KDD
Knowledge discovery in database
知识的发现过程,从数据库到数据仓库,通过数据挖掘提炼模式,最终表示为知识。
客串——对关系型数据库的一段描述:
关系型数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一地用关键字标识,并被一组属性值描述。
数据仓库:
一个从多个数据源搜集的信息存储库
需要是发明之母
数据挖掘的功能
- 类/概念描述:特征化与区分
- 挖掘频繁模式、关联与相关性
- 用于预测分析的分类与回归
- 聚类分析
- 离群点分析(异常点挖掘)
相关领域
- 智能商务
- 跨学科(例如将数据挖掘技术和信息检索和自然语言处理方法融合到一起);
- 交叉挖掘:数据挖掘过程应该是高度交互的
- 保护隐私的数据挖掘
reference
Han J. Data Mining: Concepts and Techniques[M]. 2005.