所谓机器学习,在形式上可近似等同于,在数据对象中通过统计或推理的方法,寻找一个有关特定输入和预期输出的功能函数 f(如图 1 所示)。通常,我们把输入变量(特征)空间记作大写的 X,而把输出变量空间记作大写的 Y。那么所谓的机器学习,在形式上就近似等同于 Y≈f(X)。

图 1:机器学习近似于找一个好用的函数
在这样的函数中,针对语音识别功能,如果输入一个音频信号,那么这个函数 f 就能输出诸如 "你好" "How are you?" 这类识别信息。针对图片识别功能,如果输入的是一张图片,在这个函数的加工下,就能输出(或识别出)一个或猫或狗的判定。针对下棋博弈功能,如果输入的是一个围棋的棋谱局势,就能输出这局棋的下一步“最佳”走法。
而对于具备智能交互功能的系统(比如微软的小冰),当我们给这个函数输入如 "How are you?" 一样的语句,它就能输出如 "I am fine, thank you." 这样的智能回应。每个具体的输入都是一个实例(instance),它通常由特征向量(feature vector)构成。在这里,所有特征向量存在的空间称为特征空间(feature space),特征空间的每一个维度对应实例的一个特征。
但问题来了,这样“好用的”函数并不那么好找。在输入猫的图片后,这个函数并不一定就能输出“这是一只猫”,它可能会错误地输出这是一只狗或这是一条蛇。这样一来,我们就需要构建一个评估体系来辨别函数的好赖。当然,这中间自然需要通过训练数据(training data)来“培养”函数的好品质。
前面我们提到,学习的核心就是改善性能。图 2 展示了机器学习的三步走,通过训练数据,我们把 f1 改善为 f2 的样子,即使 f2 中仍然存在分类错误,但相比于 f1 的全部出错,它的性能(分类的准确度)

机器学习通过训练数据寻找函数,涉及建模、评价和优化。输入实例由特征向量构成,通过训练改善函数性能,如从f1优化到f2,提升分类准确度。监督学习中,模型在训练数据集学习,测试数据集验证。输入输出可以是连续或离散的,任务分为回归、分类和标注。
最低0.47元/天 解锁文章
17万+

被折叠的 条评论
为什么被折叠?



