各类数据源于周志华教授的《机器学习》,阅读时囫囵吞枣,记录在此只为帮助理解,具体请自行查看。
例子:西瓜的数据三组
a、色泽=青绿;瓜蒂=蜷缩;敲声=浊响
b、色泽=乌黑;瓜蒂=微蜷;敲声=沉闷
c、色泽=浅白;瓜蒂=硬挺;敲声=清脆
1 基本术语
如果希望学得一个帮助我们判断是不是好瓜的模型,仅有示例数据显然是不够的,要建立关于“预测”(prediction)的模型,我们需要获得训练样本的“结果”信息(例如:“((色泽=青绿;瓜蒂=蜷缩;敲声=浊响),好瓜)”)。
1.1 标记(label)
上段语句中关于示例结果的信息(例如:“好瓜”)就称为“标记”。
1.2 样例(example)
拥有了“标记”信息的示例,则称为“样例”。
注:若将标记看作对象本身的一部分,则“样例”有时也称为“样本”。
1.3 标记空间(label space)/输出空间
一般用表示第i个“样例”,其中
是示例
的“标记”,Y是所有“标记”的集合,也称作“标记空间”或“输出空间”。