一、什么是机器学习?
机器学习就是研究如何通过计算机,利用经验来改善系统自身的性能。
此外,Mitchell给出的机器学习定义是:假设用P来评估计算机程序在某类任务T上的性能,若一个程序通过利用经验E在T任务上性能获得了提高,那么说改程序对E进行了学习。
二、相关概念
1、数据集:例如:(色泽:乌黑,根蒂:稍蜷,敲声:沉闷),(色泽:浅白,根蒂:硬挺,敲声:清脆),......。这组记录的集合称为数据集。
2、上述数据集中的每条记录是关于一个事件或对象的描述,称为一个示例或样本。
3、反应事件或对象在某方面的特性或性质的事项,称为属性。例如:色泽、根蒂、敲声。
4、属性值:属性的取值,例如:乌黑、稍蜷、沉闷。
5、学习(训练):从数据中学得模型的过程。这个过程通过执行某个学习算法来完成。
6、训练数据:训练过程中使用的数据。
7、训练样本:训练数据中的每个样本称为训练样本。
8、训练集:训练样本组成的集合称为训练样本。
9、分类:预测值为离散值(例如:好、坏,是、不是,0、1),称为分类。
10、回归:预测值为连续值(例如:好瓜:0.98,坏瓜:0.39),称为回归。
11、测试:利用算法学得模型后,使用模型进行预测的过程称为测试。
12、泛化能力:训练得到的模型,对新样本的适用能力。