一、特征与分类
特征作用
- 数据库通常存放大量的细节数据。然而,用户通常希望以简洁的描述形式观察汇总的数据集
- 提供一类数据的概貌,或将它与对比类相区别
- 方便、灵活地以不同的粒度和从不同的角度描述数据集
概念描述方法
- 数据泛化
- 解析特征
- 挖掘类比较
数据泛化
数据泛化是一个过程,它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层解析特征
– 通过属性相关性分析,过滤掉统计不相关或弱相关的属性,保留与挖掘任务最相关的属性
– 数值型相关性

• 经验判断
挖掘类比较
– 某些应用可能对单个类(或概念)的描述或特征化不感兴趣
– 希望挖掘一种描述,它将一个类(或概念)与其它可比较的类(或概念)相区分
– 类(或概念)区分或比较挖掘将目标类与对比类相区分的描述
– 比较对象:可比较类(或概念)
特征的关键作用——分类
- 已知分类特征,对样本进行归类
- 已知样本分类,抽取类别特征
分类:有监督学习、无监督学习
二、概率基础
概论论是一门研究随机现象数量规律的学科。
个体选择是有各种各样原因的,微观层面难以准确判断,但从宏观层面,群体角度会涌现出一定的规律,并且这个规律在一定时期内保持不变
现在的许多热点问

本文是数据挖掘学习笔记的一部分,主要探讨特征在分类中的重要性,介绍了概率基础,尤其是贝叶斯分类理论,包括贝叶斯公式、决策理论、朴素贝叶斯分类及其实际应用局限性。此外,还提到了贝叶斯网络的概念,作为更复杂的概率模型。
最低0.47元/天 解锁文章
1241

被折叠的 条评论
为什么被折叠?



