
数据挖掘
badman250
专注分享IT知识技能
展开
-
1.数据挖掘概念笔记——引论
1.数据挖掘概念笔记——引论 欢迎转载,转载请标明出处: 最近蛤蟆从公司借了一本书,书名《数据挖掘:概念与技术》作者:Jiawei Han。 感觉不错,读之并记之。 章节也是按照书中章节来,此处只是笔记,记录一些重要的概念和核心的思想。 为什么要进行数据挖掘? 答:需要是发明之母——柏拉图;原创 2015-12-23 23:33:17 · 30751 阅读 · 0 评论 -
2.数据挖掘概念笔记——认识数据
2.数据挖掘概念笔记——认识数据 欢迎转载,转载请标明出处: 数据集由数据对象组成。一个数据对象代表一个实体。 数据对象用属性描述。 数据对象又称样本、实例、数据点或对象。 1. 属性 属性是一个数据字段,表示数据对象的一个特征。一般,属性、维、特征和变量可以互换使用。 标称属性的值是一些符号或事物的名称。 二元属性是一种标称属性,只有两个类别或状态:0或1. 序数属性,可原创 2015-12-23 23:34:00 · 30965 阅读 · 0 评论 -
3.数据挖掘概念笔记——数据预处理
3.数据挖掘概念笔记——数据预处理 欢迎转载,转载请标明出处: 数据预处理的方法组织如下:数据清理、数据集成、数据归约和数据变换。 为什么要预处理? 答:数据中存在噪声,存在低质量数据。数据质量包括三要素:准确性、完整性和一致性。 什么是数据清理? 答:现实世界的数据一般是不完整的、有噪声的和不一致的,数据清理试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。 为什么要原创 2015-12-23 23:34:38 · 31211 阅读 · 0 评论 -
4.数据挖掘概念笔记——数据仓库与OLAP
4.数据挖掘概念笔记——数据仓库与OLAP 欢迎转载,转载请标明出处: 数据仓库提供联机分析处理工具,用于各种粒度的多维数据的交互分析,有利于有效的数据泛化和数据挖掘。 什么是数据仓库? 答:数据仓库有多种方式定义,很难给出一种严格的定义。宽泛的讲,数据仓库是一种数据库,与单位的操作数据库分别维护。数据仓库允许系统将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理原创 2015-12-23 23:35:11 · 30798 阅读 · 0 评论 -
5.数据挖掘概念笔记——数据立方体技术
5.数据挖掘概念笔记——数据立方体技术 欢迎转载,转载请标明出处: OLAP工具通常使用数据立方体和多维数据模型,对汇总数据提供灵活的访问。 为什么需要数据立方体? 答:有利用多维数据的联机分析处理。 有哪些数据立方体计算方法? 答:多路数组聚集;通过探查有效的自顶向下计算次序和排序计算冰山立方体;星树结构;外壳片段立方体。 哪些基于立方体的方法? 答:利用数据立方原创 2015-12-23 23:35:54 · 31477 阅读 · 0 评论 -
6.数据挖掘概念笔记——挖掘频繁模式、关联和相关性术
6.数据挖掘概念笔记——挖掘频繁模式、关联和相关性术 欢迎转载,转载请标明出处: 频繁模式挖掘搜索给定数据集中反复出现的联系。 有哪些频繁项集挖掘方法: 答:类Apriori算法;基于频繁模式增长的算法;使用垂直数据格式的算法。 什么是Apriori算法? 答:是为布尔关联规则挖掘频繁项集的原创性算法。 所有强关联规则都是有趣的么? 答:非也,应当用模式评估度量来扩展支持度-置原创 2015-12-23 23:36:32 · 31259 阅读 · 0 评论