机器学习(Machine Learning and Data Mining)CS 5751——mid1复习记录
因为是整理来给自己看的,所以都是大纲……
(1)基础定义
什么是data?
Collection of data objects and their attributes
四种类型的属性
Categorical (Qualitative)
Nominal
– Examples: ID numbers, eye color, zip codes
Ordinal
– Examples: rankings (e.g., taste of potato chips on a scale from 1-10), grades, height {tall, medium, short}
Numeric (Quantitative)
Interval
– Examples: calendar dates, temperatures in Celsius or Fahrenheit
Ratio
– Examples: temperature in Kelvin卡尔文温度, length, time, counts
属性类型的判断:
取决于属性可以执行怎样的操作(operations)
四种操作
– Distinctness: = = (第二个是不等于符号)
– Order: < >
– Differences are meaningful :+ -
– Ratios are meaningful:* /
分别的判断
– Nominal attribute: distinctness
– Ordinal attribute: distinctness & order
– Interval attribute: distinctness, order & meaningful differences
– Ratio attribute: all 4 properties/operations
离散与连续
离散属性
- 只有一组有限或可数无限的值。
- 示例:邮政编码,计数。
- 通常表示为整数变量。
- 注意:二进制属性是离散的特例
连续属性
- 将实数作为属性值。
- 示例:温度,高度或重量。
- 实际上,只能用有限数字来测量和表示实际值。
- 连续属性通常表示为浮点变量。
数据质量
数据质量差会对许多数据处理工作产生负面影响
Examples of data quality problems:
- Noise and outliers
- Missing values
- Duplicate data
- Wrong data
(2)具体考点(PPT-2)
距离
-
Euclidean Distance欧几里得距离
-
Minkowski Distance闵可夫斯基距离
r = 1.Manhattan, taxicab, L1 norm, rectilinear distance
r = 2. Euclidean distance -
协方差(Covariance)
-
相关系数correlation