机器学习的三个步骤

最新推荐文章于 2025-10-07 15:06:45 发布

原创

最新推荐文章于 2025-10-07 15:06:45 发布 · 3.3k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能

机器学习通过训练数据寻找函数，涉及建模、评价和优化。输入实例由特征向量构成，通过训练改善函数性能，如从f1优化到f2，提升分类准确度。监督学习中，模型在训练数据集学习，测试数据集验证。输入输出可以是连续或离散的，任务分为回归、分类和标注。

所谓机器学习，在形式上可近似等同于，在数据对象中通过统计或推理的方法，寻找一个有关特定输入和预期输出的功能函数 f（如图 1 所示）。通常，我们把输入变量（特征）空间记作大写的 X，而把输出变量空间记作大写的 Y。那么所谓的机器学习，在形式上就近似等同于 Y≈f(X)。

机器学习近似于找一个好用的函数

图 1：机器学习近似于找一个好用的函数

在这样的函数中，针对语音识别功能，如果输入一个音频信号，那么这个函数 f 就能输出诸如 "你好" "How are you?" 这类识别信息。针对图片识别功能，如果输入的是一张图片，在这个函数的加工下，就能输出（或识别出）一个或猫或狗的判定。针对下棋博弈功能，如果输入的是一个围棋的棋谱局势，就能输出这局棋的下一步“最佳”走法。

而对于具备智能交互功能的系统（比如微软的小冰），当我们给这个函数输入如 "How are you?" 一样的语句，它就能输出如 "I am fine, thank you." 这样的智能回应。每个具体的输入都是一个实例（instance），它通常由特征向量（feature vector）构成。在这里，所有特征向量存在的空间称为特征空间（feature space），特征空间的每一个维度对应实例的一个特征。

但问题来了，这样“好用的”函数并不那么好找。在输入猫的图片后，这个函数并不一定就能输出“这是一只猫”，它可能会错误地输出这是一只狗或这是一条蛇。这样一来，我们就需要构建一个评估体系来辨别函数的好赖。当然，这中间自然需要通过训练数据（training data）来“培养”函数的好品质。

前面我们提到，学习的核心就是改善性能。图 2 展示了机器学习的三步走，通过训练数据，我们把 f1 改善为 f2 的样子，即使 f2 中仍然存在分类错误，但相比于 f1 的全部出错，它的性能（分类的准确度）