众所周知,机器处理和存储知识的速度比人类快很多。但是这个速度可能更多时候局限在一些具有特定规则的计算任务中,对于一些“不确定”的感知类型的智能任务,计算机并不能很好的处理,我们如何最大限度的利用机器让他们来处理一些“智能任务”呢?
这个问题的答案是:用和这些智能任务相关的数据来“喂养”机器,让机器从这些数据中学习只是。这些相关的数据又称为训练数据。
机器学习的模型和儿童学习的方式类似。回想一下当一个孩子观察一个新事物时,比如当天第一次观察一只狗时,他会得到这个场景中的一些反馈比如记住这种狗的特征如有毛,两只眼睛,一只尾巴等等,于是当这个孩子下次再碰到狗时,他就能辨别出来。
机器能从我们提供的训练数据中学习。利用这一特性,我们可以调控算法来发现事物之间的关系,检测模式,理解复杂的问题和做最优决策。最终,我们提供的训练数据的质量,多样性和数据将对我们机器学习算法模型的成败产生重大影响。
训练数据的内容和形式经常是指:在终端应用角度被用来训练机器学习模型的被标注的或者人为标注的或者ground truth的数据集。下面我们列了一些可以用来训练不同种类的机器视觉模型的已经标注好的数据。