基础概念——以西瓜为例
数据相关概念:
数据集:以西瓜为例,西瓜的色泽,敲声,根蒂,这种记录的集合,称为一个“数据集”
示例:关于一个事件或对象的描述
属性/特征:反映事件或对象在某方面的表现或性质
属性值:属性上的具体取值
属性空间/样本空间/输入空间:属性张成的空间
特征向量:将属性作为坐标轴,张成一个用于描述西瓜的三维空间,每个事物可以在空间中找到自己的坐标位置,每个点对一个坐标向量,因此我们也把一个示例称为一个“特征向量”。
训练过程概念:
学习/训练:从数据中学得模型的过程
训练数据:训练得到模型过程中,所使用的数据
训练样本:训练数据中每一个样本,也称为,训练示例或训练例
假设:学得模型对应的关于数据的某种潜在规律(并不一定客观存在)
真相/真实:潜在规律自身,客观事物
模型:泛指从数据中学得的结果。有文献用“模型”指全局结果(例如一颗决策树),而用“模式”指局部性结果(例如一条规则)。有时会将模型称为“学习器”
标记:需要获得训练样本的结果“信息”,例如((色泽=青绿;根蒂=蜷缩;敲声=浑浊),好瓜),这里关于示例结果的信息,例如,好瓜,成为标记。
样例:有拥有标记信息的示例
训练结果概念:
分类:预测离散值,例如“好瓜”,“坏瓜”,此学习过程为分类
回归:预测连续值,例如西瓜成熟度0.95,西瓜成熟度0.75,此学习过程为回归
正类,反类:只涉及两个类别的“二分类”任务,通常一个称为正类,一个称为反类
测试:学得模型后,使用其进行预测的过程称为测试
测试样本:被测试的样本称为测试样本
泛化:学得模型使用于新样本的能力
书籍参考:《机械学习》 周志华 清华大学出版社 2016年版
视频参考:周志华老师亲讲-西瓜书全网最详尽讲解-1080p高清原版《机器学习初步》 B站
993

被折叠的 条评论
为什么被折叠?



