机器学习中的训练数据表示、算法及概念学习
1. 训练数据的表示
训练数据的表示,也就是用于学习概念的示例的表示,需要满足两个目的。一方面,这种表示要适合学习系统的用户,即能轻松地将给定数据反映在所选的表示形式中。另一方面,它要适合学习算法,这至少包含两个方面:首先,学习算法必须能够处理数据的表示形式;其次,学习算法要能够从呈现的示例中找到合适的概念,即进行有用且恰当的泛化。
最常用的数据表示形式是某种属性或特征向量,即通过多个属性来描述对象。常见的属性类型有以下几种:
- 非结构化属性 :
- 布尔属性 :对象要么具有该属性,要么不具有。通常用 {f, t} 、 {0, 1} 表示,在神经网络中有时用 {-1, 1} 表示。
- 离散属性 :属性有多个可能的值(多于两个),例如颜色 {red, blue, green, brown} 、形状 {circle, triangle, rectangle} ,甚至是没有实际意义的数字或其他标量值集合。
- 结构化属性 :可能的值之间存在有意义的关系。
- 线性属性 :通常线性属性的可能值是一组数字,如 {0, 1, ..., 15} ,值的顺序对于泛化是相关的。当然,也可以使用非数值的值,只要这种顺序被认为是有意义的,例如颜色可以根据亮度排序。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



