第二章 数据
- 数据类型
- 数据质量
- 数据预处理
- 相似度测量
数据
- Collection of data objects and their attributes
特征值
- 数值型的或者描述性的(男/女 --> 0/1)
- 特征和特征值之间的区别:
- 相同的属性可能被赋予不同的特征值,如身高的单位可能是米或者英尺
- 不同的属性可以映射到相同的值集,如ID是无界的,age有最大值和最小值
1. 特征的类型
- Nominal(标称)
- Examples: ID numbers, eye color, zip codes
- 只提供足够的信息以区分对象
- (= / 不等于)
- Ordinal(序数)
- Examples: rankings (e.g., taste of potato chips on a scale from 1-10), grades, height {tall, medium, short}
- (< / >)
- Interval(区间)
- 值之间的差是有意义的
- Examples: calendar dates, temperatures in Celsius or Fahrenheit.
- (+/-)
- Ratio
- Examples: temperature in Kelvin