今天的草莓甜不甜?
要让机器学会认识世界 首先要有数据
像是要判断草莓甜不甜 就要先收集一些草莓的数据
比如个头小、色泽鲜艳、质地柔软的草莓是甜的
相对个头较大、色泽较浅、质地较硬的草莓则是酸的
学到了 会买草莓了
在机器学习中 大小、色泽、质地叫做特征
酸甜则被称为标签
机器学习就是要找到特征和标签之间的关系
来判断草莓是不是甜的
通过数据学得模型的过程就是我们常说的学习 也叫作训练
不过在学习过程中 有时太过认真学习已有的草莓
会造成无法判断其他草莓甜不甜的状况
这种情况被称为过拟合(overfitting)
过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。
而我们希望学得的模型可以更好地认识新的草莓
这种能力被称为“泛化(generalization)”
泛化:当某一反应与某种刺激形成条件联系后,这一反应也会与其它类似的刺激形成某种程度的条件联系,这一过程称为泛化。
一般来说 训练样本越多 模型的泛化能力就越好
就越能判断新的草莓是不是甜的