《数据挖掘导论》笔记:Chapter 2-- Data

本文是《数据挖掘导论》第二章的笔记,主要探讨数据类型,包括数据集、属性定义与度量,以及数据集的分类。同时,介绍了数据质量的重要性,如数据的测量和收集问题,离群点、遗漏值、不一致值和重复值的处理策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第二章讨论的主要内容:

  • 数据类型(the type of data)
  • 数据质量(the quality of data)
  • 数据预处理(prepocessing steps to make the data suitable for data mining)
  • 分析数据间关系(anlayzing data in terms of its relationship)

=============================================================================

2.1 数据类型(the type of data)

数据集(data set):一系列数据对象的集合,并且是被一系列属性描述的数据对象(data object)
2.1.1 属性与度量(Attributes and Measurement)

属性定义:

  • 属性定义1:一个描述对象的特征,这个特征可以随着对象不同而不同或者随着时间变化而不同
  • 属性定义2:度量标度(a measurement scale):将数值型或者标志型数据(numerical or symbolic value)和数据对象的属性关联起来
    属性类型
    属性的值往往有如下几种性质:
  • 相异性 Distinctness = and ≠
  • Order < ≤ > ≥
  • 加法 Addition + -
  • 乘法 Multiplication * /
    具体分
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值