概念
- 数据的总体叫做数据集(datasets)
- 每行数据成为样本(sample)
- 除了最后一列, 每一列称为特征(feature)
- 最后一列称为标记(label)
以分号作为列向量的分隔如
(5.1; 3.5; 1.4; 0.2; 0) == (
5.1
3.5
1.4
0.2
0
)
label
特征
萼片长度 |
萼片宽度 |
花瓣长度 |
花瓣宽度 |
种类 |
5.1 |
3.5 |
1.4 |
0.2 |
Se(0) |
7.0 |
3.2 |
4.7 |
1.4 |
Ve(1) |
6.3 |
3.3 |
6 |
2.6 |
Vi(2) |
特征向量X(5.1; 3.5; 1.4; 0.2; 0) 约定俗称为列向量
X 大写称为矩阵
y小写为向量
第i样本行X(i) 第i行第j个特征值为 X(i)j
特征空间(featrue space)
以特征为坐标轴组成的空间坐标系
一般分析时, 特征空间为二维甚至一维
特征工程了解一下
28*28 灰度图