本文讲解数据挖掘中的基本概念:
一、数据挖掘:
数据挖掘(KDD,knowledge discovery in database):数据库中发现知识。
- 数据清理:消除噪声和删除不一致数据。
- 数据集成:多种数据源可以组合在一起。
- 数据选择:从数据库中提取与分析任务相关的数据。
- 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式。
- 数据挖掘:基本步骤,使用智能方法提取数据模式
- 模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式。
- 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。
步骤1-4是数据预处理的不同形式,为挖掘准备数据。
二、数据类型:
数据的最基本形式是数据库数据、数据仓库数据和事务数据。
- 数据库数据:数据库系统,也称为数据库管理系统(DBMS),由一组内部相关的数据(数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权访问,确保存储的信息的一致性和安全性。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系数据模型。
- 数据仓库:是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷

本文介绍了数据挖掘的基本概念,包括数据清理、数据选择等预处理步骤,以及数据挖掘模式的评估和知识表示。数据类型涵盖数据库数据、数据仓库和事务数据。挖掘模式包括类/概念描述、频繁模式、关联规则、分类与回归、聚类分析和离群点分析。关联规则的支持度和置信度是其有趣性的度量标准。
最低0.47元/天 解锁文章
3777

被折叠的 条评论
为什么被折叠?



