数据挖掘导论学习总结——第三章

本章介绍了描述性数据挖掘中的定性归纳,包括概念描述和对比描述。数据泛化是数据抽象过程,常见方法有数据立方(OLAP)和基于属性的归纳(AOI)。属性相关分析通过信息增益等指标选择重要属性。ID3决策树用于展示信息增益在选择属性中的应用。此外,还探讨了概念对比描述的步骤和大数据库中描述型统计信息的挖掘方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第三章:定性归纳

从数据分析的角度出发,数据挖掘可以分为两类,描述性数据挖掘和预测性数据挖掘,而接下来要介绍的就是第一种情形,描述性数据挖掘,即以简洁概述的方式表达数据中存在的一些有意义的性质,也称为概念描述,或概要性总结。

概念描述基本知识

数据查询处理负责从数据库中取出数据并在必要时进行一些数据合计处理,而数据挖掘则是对数据进行深度分析并发现隐藏在数据中有意义的模式。最简单的描述性数据挖掘就是定性归纳,通常分为概念描述和对比描述。不同的人常常会基于不同的主观或客观标准需要不同角度或不同抽象水平的概念描述。这里的客观标准一般指描述的简洁性和其所覆盖的范围,主观标准则与用户背景知识以其所涉及的有关信念相关。

数据泛化与概要描述

数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程,主要有数据立方方法(OLAP)和基于属性的归纳方法(AOI)。

数据立方方法被认为是基于数据仓库,预先计算的具体实施方法。该方法在进行OLAP或数据挖掘查询处理之前,就已经完成了离线合计计算。而AOI方法是一种在线数据分析技术方法。虽然离线数据处理与在线数据处理并没有根本的区别。数据立方的合计运算也可以在线计算但是离线预处理运算可以帮助加速基于属性归纳的过程,提高运算速度。OLAP与AOI操作在方法上还是有很大不同的,OLAP中每一步都是由用户指导并控制的,而在AOI中大部分工作都是由归纳进程自动完成并受制于泛化阈值控制,用户只能在自动归纳后进行一些小的调整。

属性相关分析

数据仓库与OLAP工具中的多维数据分析的主要不足之处是无法处理复杂数据对象,第二个不足是不能主动进行泛化操作,而需要用户明确告诉系统定性概念描述中可能包含哪些属性,以及每个属性归纳应该进行到哪一个抽象层次,其中的每一步操作都必须由用户来指定。

属性相关分析的基本思想是针对给定的数据或概念,对相应属性进行计算已获得的若干属性相关参量。这些参量包括:信息增益、Gini值、不确定性和相关系数等。其中信息增益分析在决策树归纳学习中普遍采用。该方法消除信息含量较少的属性,保留信息含量较大的属性以帮助进行概念描述分析。此处以ID3决策树归纳学习方法为例进行介绍。

ID3根据一组给定数据行或训练数据对象(其类别属性已知),来构造一颗决策树,然后利用决策树对未知类别的数据对象进行分类。ID3利用了信息增益的参量来对属性重要性进行评估。具有最大信息增益被认为是当前数据集中具有最大分辨能力的属性。利用该属性构造决策树的一个结点,并在该结点对其所代表属性的所有取值进行测试,以获得决策树的该结点的各个分支,这些分支将原有数据集合划分为若干子数据集。若一个结点所包含的数据行均为同一类别,则该结点就是决策树的叶节点,无需继续进行分支,并被标为相应的类别。这一决策树构造的过程不断重复,直至所有结点均无需继续分支为止。

设S代表一组训练样本集,每个对象的类别已知,共有m个不同类别,即S包含sisi个类别为CiCi的数据行,i[1,2,...m]i∈[1,2,...m]. 任何一个对象属于CiCi的概率为pi=si/spi=si/s. 这里s为集合S中所有样本总数。一个决策树可用于对数据对象进行分类,因此决策树可以看成是Ci

### 数据挖掘导论第一章课后习题解答 以下是关于数据挖掘主要挑战的部分解析,特别是针对流/传感器数据分析、时空数据分析以及生物信息学等领域的内容: 在诸如流/传感器数据分析、时空数据分析或生物信息学等特定应用领域中,数据挖掘面临着多重挑战。这些领域的一个显著特点是可能存在多源数据的情况。当存在多源数据时,如何有效地对其进行整合成为一大难题[^1]。此外,对于多源数据的预处理也颇具难度,因为不同来源的数据可能相互影响,从而增加了清洗和标准化过程的复杂度。 另一个重要挑战在于对复杂对象进行高效挖掘的能力不足。这类复杂对象通常具有高维度特征或者非结构化特性,因此传统的数据挖掘算法难以直接适用。为了应对上述挑战,研究者们正在探索新的方法和技术来改进现有模型的表现力及其适应能力。 尽管未找到具体《数据挖掘导论》第一章完整的课后习题答案PDF文档链接,但可以参考类似教材如《数据挖掘概念与技术(原书第三版)》的相关章节内容作为辅助理解材料。 ```python # 示例代码展示了一个简单的数据集成逻辑 def integrate_data(source_a, source_b): """ 将两个不同的数据源进行初步整合 参数: source_a (list): 来自第一个数据源的信息列表 source_b (dict): 来自第二个数据源的关键字映射表 返回值: dict: 合并后的统一表示形式 """ result = {} for item in source_a: key = extract_key(item) # 假设定义了提取键的方法 value = transform_value(item) # 转换函数假设已实现 if key in source_b and validate(key, value, source_b[key]): result[key] = combine(value, source_b[key]) # 组合操作 return result ``` 以上代码片段展示了如何通过编程手段解决部分由多源数据带来的问题之一——即如何将来自不同类型存储格式下的记录合理关联起来以便后续分析使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值