ps:本文为记录参与Datawhale-7月吃瓜教程的学习笔记
Task01——概览西瓜书+南瓜书1、2章
1 绪论
1.1 引言
通过根据已有的经验来预测判断西瓜“好坏”与否来引入机器学习的概念。
机器学习:一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
1.2 基本术语
-
数据集(data set):一组记录的集合。
-
示例(instance)/样本(example):数据集中的一条对事件或对象的记录。
-
属性(attrribute)/特征(feature):能反映事件或对象在某方面的表现或性质的事情。
-
属性值(attribute value):属性上的取值,书中例子为“青绿” “乌黑” 。
-
属性空间(attribute space)/样本空间(sample space)/输入空间:属性长成的空间,例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成 一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置.由于空间中的每个点对应一个坐标向量,因此我们也把…个示例称为一个 "特征向量" (feature vector).。
-
学习(learning)/训练(training):从数据中学得模型的过程。
-
训练过程中使用的数据称为"训练数据" (training data),其中每个样本称为一个训练样本" (training sample), 训练样本组成的集合称为"训练集" (training set)。
-
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,这种潜在规律自身,则称为"真相"或"真实" (ground-truth),学习过程就是为了找出或逼近真相。
-
关于示例结果的信息,例如"好瓜",称为"标记" (label); 拥有了标记信息的示例,则称为"样例" (example)。
-
分类(classification):欲预测的是离散值,例如"好瓜" "坏瓜",对只涉及两个类别的"二分类" (binary classification)任务,通常称其中一个类为 "正类" (positive classification)另一个类为"反类" (negative classification); 涉及多个类别时,则称为"多分类" (multi-class classificatio)任务。
</