【模式识别与机器学习（1+）】基础概念之：机器学习基础

原创于 2025-12-03 23:33:52 发布 · 334 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

模式识别与机器学习基础专栏收录该内容

21 篇文章

订阅专栏

「C++ 40 周年」主题征文大赛（有机会与C++之父现场交流！） 10w+人浏览 752人参与

文章目录

本文内容一览（快速理解）

机器学习是什么？ 通过数据学习提升能力，包括监督、无监督、强化学习等多种方法
机器学习模型特点 黑箱vs白箱，需要一致性假设，追求泛化能力
经验风险最小化 用样本误差近似期望风险，是机器学习的核心原则
学习策略有哪些？ 示教学习、演绎学习、类比学习、归纳学习，归纳学习最基础
机器学习六大挑战 泛化能力、速度、可理解性、数据利用、代价敏感、可信任

学习路线建议

初学者：理解机器学习的基本概念和核心原理｜进阶者：深入理解各种学习方法和策略，掌握机器学习的数学表示｜考试复习：重点掌握模型特点、经验风险最小化、主要方法、六大挑战

总结口诀

学习三法：监督、无监督、强化
模型特点：黑箱、一致性假设、泛化能力
核心原则：经验风险最小化（ERM）
六大挑战：泛化、速度、可理解、数据利用、代价敏感、可信任

概述

核心要点：

机器学习定义：通过数据学习提升能力，系统在不断重复的工作中对本身能力的增强或改进
模型特点：黑箱vs白箱，需要一致性假设，追求泛化能力
问题表示：通过最小化期望风险来学习预测函数，使用经验风险最小化原则
主要方法：监督学习、无监督学习、强化学习等多种方法，适用于不同的学习场景
学习策略：示教学习、演绎学习、类比学习、归纳学习等，归纳学习最基础
六大挑战：泛化能力、速度、可理解性、数据利用、代价敏感、可信任

机器学习是模式识别的技术基础，是人工智能研究的重要组成部分。在本部分中，我们将学习机器学习的基础知识，包括机器学习的定义、模型特点、问题表示、主要方法和面临的挑战。

本部分内容概览：

机器学习的定义：理解机器学习的本质，学习如何通过数据提升能力
机器学习模型：掌握学习模型和物理模型的区别，理解泛化能力和一致性假设
问题的一般表示：理解期望风险最小化和经验风险最小化原则
主要方法：掌握监督学习、无监督学习、强化学习等多种方法
学习策略：了解示教学习、演绎学习、类比学习、归纳学习等策略
发展历史：了解机器学习的发展历程和重要阶段
面临的挑战：理解机器学习面临的六大挑战和未来研究方向

学习目标：

能够定义机器学习并理解学习的本质
理解学习模型和物理模型的区别，掌握泛化能力的概念
掌握经验风险最小化原则和数学表示
了解各种学习方法的特点和适用场景
理解各种学习策略的特点和重要性
了解机器学习的发展历史和面临的挑战

一、机器学习的定义

[!NOTE]
📝 关键点总结：机器学习是研究机器如何通过数据学习提升能力的学科，是模式识别的技术基础，在多个领域有重要应用。

核心要点：

本质：系统在不断重复的工作中对本身能力的增强或改进
定义角度：模拟人类学习活动、获取新知识和新技能、识别现有知识
目标：通过从数据中学习后进行分类识别、推理决策、预测未来
应用领域：生物信息学、计算金融学、分子生物学、行星地质学、工业过程控制、机器人、遥感信息处理、信息安全等

考试重点：机器学习的定义，学习的本质，机器学习的应用领域

为什么需要机器学习？

传统的程序需要人工编写规则，但很多问题难以用规则描述。机器学习让机器能够从数据中自动学习规律，解决复杂问题。

机器学习是什么？

根据人工智能大师赫伯特·西蒙的观点，学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。

这个定义强调了学习是一个持续改进的过程，通过经验积累来提升能力。

机器学习的定义可以从多个角度理解：

模拟人类学习：机器学习是研究如何使用机器来模拟人类学习活动的一门学科
知识获取：机器学习是一门研究机器获取新知识和新技能，并识别现有知识的学科
能力提升：研究如何构造理论、算法和计算机系统，让机器通过从数据中学习后可以进行：
- 分类和识别事物
- 推理决策
- 预测未来

机器学习的应用领域：

生物信息学：分析基因序列
计算金融学：预测股价、风险评估
分子生物学：药物设计
行星地质学：分析行星表面特征
工业过程控制：优化生产过程
机器人：机器人导航和控制
遥感信息处理：分析卫星图像
信息安全：入侵检测、恶意软件识别

实际应用示例：

推荐系统：通过学习用户行为，推荐用户可能喜欢的商品
语音助手：通过学习语音数据，识别和理解语音指令
自动驾驶：通过学习驾驶数据，学会驾驶技能

二、机器学习模型

[!NOTE]
📝 关键点总结：机器学习模型是黑箱方法，通过数据学习得到，需要一致性假设，追求泛化能力。

核心要点：

学习模型vs物理模型：学习模型是黑箱（无法完全解释），物理模型是白箱（可解释）
建立模型：根据训练数据学习模型参数，拟合训练数据
泛化能力：模型在未见过的数据上的表现，是衡量模型好坏的重要指标
一致性假设：假设世界W与样本集Q有相同的性质（如iid条件），是机器学习的基础

考试重点：学习模型和物理模型的区别，泛化能力的概念，一致性假设的重要性

为什么需要理解机器学习模型？

模型是机器学习的核心，理解模型的特点有助于选择合适的模型和评估模型效果。

机器学习模型的特点是什么？

1. 学习模型vs物理模型

学习模型：黑箱方法
- 通过数据学习得到
- 可能无法完全解释其内部机制
- 能够有效处理复杂问题
物理模型：白箱方法
- 更为简洁
- 模型的每个部分与物理世界相对应
- 对世界确定为真

区别：

物理模型更简洁且可解释
物理模型对世界确定为真
学习模型通过数据学习，可能无法完全解释

2. 建立模型

建立模型的过程就是根据训练数据学习模型参数，使得模型能够很好地拟合训练数据。

3. 泛化能力

定义：泛化能力是指模型在未见过的数据上的表现
重要性：这是衡量模型好坏的重要指标
要求：一个好的模型不仅要能拟合训练数据，还要能在新数据上表现良好
问题：如果模型只能拟合训练数据，在新数据上表现很差，就是"过拟合"

4. 一致性假设

定义：机器学习的条件，假设世界W与样本集Q有相同的性质
例子：iid条件（独立同分布）
重要性：一致性假设是机器学习的基础，如果没有这个假设，就无法从有限样本中学习到有效的模型
意义：这个假设让我们相信，训练数据能够代表真实世界的数据分布

实际应用示例：

图像分类：训练数据中的猫狗图片应该和真实世界中的猫狗图片具有相同的分布特征
股票预测：如果市场环境发生根本变化，一致性假设可能不再成立，模型效果会下降

三、机器学习问题的一般表示

[!NOTE]
📝 关键点总结：机器学习问题是通过最小化期望风险来学习预测函数，但期望风险无法计算，因此使用经验风险最小化原则。

核心要点：

问题表示：根据n个独立同分布观测样本确定预测函数 $f (x, a)$ ，使预测的期望风险最小
学习类型：根据Y定义的空间不同，分为无监督学习、分类学习、回归学习、半监督学习、排序学习等
经验风险最小化（ERM）：用样本定义经验风险 $R_{emp}(\alpha) = (1/l)\sum Q(z_i, \alpha)$ ，最小化经验风险来近似最小化期望风险
实现方法：最小二乘和最大似然都是ERM的实现

考试重点：期望风险最小化，经验风险最小化的定义和公式，ERM原则的重要性

为什么需要统一的数学表示？

统一的数学表示提供了理论框架，让我们能够用严谨的方式分析和设计机器学习算法。

机器学习问题如何表示？

问题定义：

根据 $n$ 个独立同分布观测样本确定预测函数 $f (x, a)$ ，在一组函数 ${f(x, a)\}$ 中求一个最优的函数 $f(x, a_0)$ 对依赖关系进行估计，使预测的期望风险最小。

学习类型：

假设从样本集合估计的模型为 $Y = f (x, a)$ ， $Y$ 定义的空间不同将导致完全不同的学习类型：

$Y$ 定义为空集：无监督学习（如聚类）
$Y$ 定义为有限整数集：分类学习（如手写数字识别）
$Y$ 定义为实数域：回归学习（如房价预测）
$Y$ 定义为有缺损：半监督学习（部分数据有标签）
$Y$ 定义为序集合：Learning for Ranking（如搜索引擎排序）

期望风险最小化：

学习的目的在于使期望风险最小化。但由于可利用的信息只有样本，期望风险往往无法计算。

经验风险最小化归纳原则（ERM）：

核心思想：用样本定义经验风险来近似期望风险
经验风险定义：
$R_{emp}(\alpha) = \frac{1}{l}\sum_{i=1}^{l} Q(z_i, \alpha)$

其中 $Q(z_i, \alpha)$ 是损失函数， $l$ 是样本数量。
经验风险最小化器：
$\alpha_l = \arg\min_{\alpha \in \Lambda} R_{emp}(\alpha)$
实现方法：最小二乘和最大似然都是ERM的实现

实际意义：

经验风险最小化原则是机器学习的重要理论基础，它提供了一种从有限样本中学习模型的方法。通过最小化经验风险，我们希望能够近似最小化期望风险，从而得到好的模型。

实际应用示例：

线性回归：使用最小二乘法最小化经验风险（平方误差）
逻辑回归：使用最大似然估计最小化经验风险（对数似然）

四、机器学习主要方法

[!NOTE]
📝 关键点总结：机器学习有多种主要方法，每种方法适用于不同的学习场景，需要根据问题特点选择合适的方法。

方法要点：

监督学习：从标注数据中学习，是最常见的机器学习方法
半监督学习：利用少量标注和大量未标注数据，在标注数据稀缺的场景中很有价值
无监督学习：从无标注数据中发现模式，包括聚类、降维等任务
弱监督学习：利用弱标注数据，如只有图像级标签而没有像素级标签
自监督学习：从数据本身构造监督信号，是近年来发展迅速的方法
强化学习：通过试错与环境交互学习，在游戏AI、机器人控制等领域有重要应用
深度学习：使用深层神经网络，在图像、语音、自然语言处理等领域取得了突破性进展

决策标准：有标注数据用监督学习；标注稀缺用半监督/弱监督；无标注用无监督/自监督；需要交互用强化学习；复杂问题用深度学习。

为什么有多种学习方法？

不同的问题有不同的数据条件和学习目标，需要不同的学习方法。理解各种方法的特点，才能选择最合适的方法。

机器学习有哪些主要方法？

1. 监督学习（supervised learning）

特点：从标注数据中学习
数据：输入-输出对 $(x, y)$
任务：分类、回归
应用：图像分类、房价预测

2. 半监督学习（Semi-Supervised Learning）

特点：利用少量标注和大量未标注数据
场景：标注数据稀缺、标注成本高
应用：文本分类、图像识别

3. 无监督学习（Unsupervised Learning）

特点：从无标注数据中发现模式
任务：聚类、降维
应用：客户分群、数据可视化

4. 弱监督学习（Weakly Supervised Learning）

特点：利用弱标注数据
例子：只有图像级标签而没有像素级标签
应用：图像分割、目标检测

5. 自监督学习（Self-supervised Learning）

特点：从数据本身构造监督信号
优势：不需要人工标注
应用：预训练模型、表示学习

6. 增量学习（Incremental Learning）

特点：逐步学习新知识
优势：能够适应数据分布的变化
应用：在线推荐系统、流式数据处理

7. 强化学习或增强学习（Reinforcement Learning）

特点：通过试错与环境交互学习
要素：状态、动作、奖励
应用：游戏AI、机器人控制、自动驾驶

8. 持续学习（Continual Learning / Life-long Learning）

特点：持续学习新任务
挑战：避免遗忘旧知识
应用：智能助手、自适应系统

9. 集成学习（Ensemble Learning）

特点：组合多个学习器
优势：提高预测性能
方法：Bagging、Boosting、Stacking
应用：Kaggle竞赛、实际项目

10. 主动学习（Active Learning）

特点：主动选择最有价值的样本进行标注
优势：提高学习效率，减少标注成本
应用：数据标注、模型优化

11. 迁移学习（Transfer Learning）

特点：将知识从一个领域迁移到另一个领域
优势：减少数据需求
应用：图像识别、自然语言处理

12. 元学习（Meta-learning）

特点：学习如何学习
优势：能够快速适应新任务
应用：少样本学习、快速适应

13. 深度学习（Deep Learning）

特点：使用深层神经网络
优势：能够学习复杂的特征表示
应用：图像识别、语音识别、自然语言处理

方法选择建议：

有大量标注数据 → 监督学习
标注数据稀缺 → 半监督学习/弱监督学习
无标注数据 → 无监督学习/自监督学习
需要与环境交互 → 强化学习
复杂问题 → 深度学习
需要快速适应 → 增量学习/持续学习
需要提高性能 → 集成学习

五、机器学习的学习策略

[!NOTE]
📝 关键点总结：机器学习有多种学习策略，包括示教学习、演绎学习、类比学习、归纳学习等，归纳学习是最基本的方法。

核心要点：

示教学习：从教师获取抽象知识，效率高但需要高质量知识
演绎学习：从公理推导结论，推理保真但并非获取新知识
类比学习：利用不同领域的知识相似性，需要更多推理
归纳学习：从实例归纳出一般描述，推理工作量大，是最基本的方法
基于解释的学习：构造解释说明例子满足目标概念，然后推广

考试重点：各种学习策略的特点，归纳学习的重要性

为什么需要不同的学习策略？

不同的学习场景需要不同的策略，理解各种策略有助于深入理解机器学习的本质。

机器学习有哪些学习策略？

1. 示教学习（Learning from instruction）

过程：学生从教师或某一处获取一般性的抽象知识，再把这种抽象知识转换成可以执行的内部表示形式
优点：效率高
缺点：需要教师提供高质量的知识
应用：知识库系统、专家系统

2. 演绎学习（Learning by deduction）

过程：学生从公理出发，经过逻辑变换推导出结论
特点：推理是保真的，所得出的知识实际上已包含在大前提中
局限：并非获取新知识，只是对已有知识进行运用
应用：定理证明、逻辑推理

3. 类比学习（Learning by analogy）

过程：利用二个不同领域（源域、目标域）中的知识相似性，通过类比从源域的知识推导出目标域的相应知识
特点：需要比上述三种学习方式更多的推理
步骤：先从知识源（源域）中检索出可用的知识，再将其转换成新的形式，用到新的状况（目标域）中去
意义：在人类科学技术发展史上起着重要作用，许多科学发现就是通过类比得到的
应用：问题求解、创新设计

4. 基于解释的学习（Explanation-based learning）

过程：学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则，首先构造一个解释来说明为什么该例子满足目标概念，然后将解释推广为目标概念的一个满足可操作准则的充分条件
应用：EBL已被广泛应用于知识库求精和改善系统的性能

5. 归纳学习（Learning from induction）

过程：由教师或环境提供某概念的一些实例或反例，让学生通过归纳推理得出该概念的一般描述
特点：
- 推理工作量远多于示教学习和演绎学习
- 环境并不提供一般性概念描述（如公理）
- 推理量也比类比学习大，因为没有一个类似的概念可以作为"源概念"加以取用
重要性：是最基本的，发展也较为成熟的学习方法
应用：在人工智能领域中已经得到广泛的研究和应用

策略对比：

效率：示教学习 > 演绎学习 > 类比学习 > 归纳学习
推理量：示教学习 < 演绎学习 < 类比学习 < 归纳学习
获取新知识：归纳学习 > 类比学习 > 示教学习 > 演绎学习

实际应用示例：

示教学习：专家系统从专家那里学习规则
演绎学习：逻辑推理系统从公理推导定理
类比学习：设计系统通过类比已有设计创造新设计
归纳学习：分类算法从样本中学习分类规则

六、机器学习简史

[!NOTE]
📝 关键点总结：机器学习发展经历了四个阶段，从神经网络模型到概念学习，再到多概念学习，最后到现在的深度学习时代。

核心要点：

第一阶段（50年代中叶到60年代中叶）：热烈时期，以神经网络模型为基础的"没有知识"的学习方法，形成判别函数法和进化学习
第二阶段（60年代中叶至70年代中叶）：冷静时期，模拟人类的概念学习阶段，采用逻辑结构或图结构，神经网络学习机因理论缺陷转入低潮
第三阶段（70年代中叶至80年代中叶）：复兴时期，从学习单个概念扩展到学习多个概念，探索不同的学习策略和方法
第四阶段（1986年至今）：最新阶段，神经网络研究取得重要进展，出现进化学习、强化学习等，实验研究和应用研究得到前所未有的重视

考试重点：四个阶段的特点，各阶段的主要技术和方法

为什么了解历史很重要？

了解发展历史可以帮助理解各种方法的来龙去脉，理解技术演进的逻辑和未来趋势。

机器学习的发展历程

第一阶段（50年代中叶到60年代中叶）：热烈时期

目标：以40年代兴起的神经网络模型为理论基础的"没有知识"的学习方法
成果：模式识别发展的同时形成了机器学习的两种重要方法：
- 判别函数法
- 进化学习
特点：研究热情高涨，探索各种可能性

第二阶段（60年代中叶至70年代中叶）：冷静时期

目标：模拟人类的概念学习阶段，并采用逻辑结构或图结构作为机器内部描述
特点：神经网络学习机因理论缺陷转入低潮
转向：从神经网络转向符号主义和逻辑方法

第三阶段（70年代中叶至80年代中叶）：复兴时期

目标：从学习单个概念扩展到学习多个概念
探索：探索不同的学习策略和方法（如模式方法推断）
特点：研究范围扩大，方法多样化

第四阶段（1986年至今）：最新阶段

技术进展：
- 机器学习有了更强的研究手段和环境
- 神经网络研究取得重要进展
- 出现进化学习、强化学习等新方法
研究重点：
- 对实验研究和应用研究得到前所未有的重视
- 我国的机器学习研究开始进入稳步发展和逐渐繁荣的新时期
现状：深度学习、强化学习、迁移学习等新技术不断涌现

发展趋势：

从简单到复杂
从理论到应用
从单一方法到多种方法融合
从实验室到实际应用
从人工设计到自动学习

七、机器学习面对的挑战

[!NOTE]
📝 关键点总结：机器学习面临六大主要挑战，这些挑战是未来研究的重要方向，也是技术发展的关键问题。

核心要点：

泛化能力：提高准确性是永远的追求，SVM、集成学习、深度学习等技术泛化能力较强
速度：加快速度是永远的追求，训练速度和测试速度往往存在权衡
可理解性：强大的技术几乎都是"黑盒子"，但大多数领域希望有"可理解性"
数据利用能力：传统技术主要对有标记数据进行学习，如何利用未标记数据、噪声数据是挑战
代价敏感：大多数领域中的错误代价都不一样，如何"趋利避害"是挑战
可信任：机器学习系统需要保证"不作恶"，鲁棒性、公平性、安全性是重要问题

考试重点：六大挑战的具体内容，每个挑战的核心问题和研究方向

为什么了解挑战很重要？

了解挑战可以帮助理解机器学习的局限性和未来发展方向，指导学习和研究。

机器学习面临哪些挑战？

1. 泛化能力

目标：提高泛化能力是永远的追求，几乎所有的领域，都希望越准越好
现状：目前泛化能力比较强的技术包括支持向量机（SVM）、集成学习（ensemble learning）、深度学习（deep learning）
挑战问题：今后10年能否更"准"？如果能，会从哪儿来？
研究方向：泛化能力的提升需要更好的算法、更多的数据、更强的理论基础

2. 速度

目标：加快速度也是永远的追求，几乎所有的领域，都希望越快越好
权衡：“训练速度” vs. “测试速度”：
- 训练速度快的往往测试速度慢（如k近邻）
- 测试速度快的往往训练速度慢（如神经网络）
挑战问题：今后10年能否更"快"？能否做到"训练快"、"测试也快"吗？
研究方向：速度的提升需要算法优化、硬件加速、并行计算等多方面的努力

3. 可理解性

现状：目前强大的技术几乎都是（或基本上是）“黑盒子”（神经网络、支持向量机、集成学习）
需求：绝大多数领域都希望有"可理解性"，如故障诊断、气象预测
挑战问题：今后10年能否产生"白盒子"？是和"黑盒子"完全不同的东西，还是从"黑盒子"变出来？
研究方向：可理解性的提升需要新的模型设计、解释性方法、可视化技术等

4. 数据利用能力

现状：传统的机器学习技术主要对有标记数据进行学习（监督学习）
挑战：随着数据收集能力飞速提高、Internet的出现，在大多数领域中都可以很容易地获得大量未标记数据、噪声数据，如医学图像数据、用户数据
挑战问题：今后10年能否"数据通吃"？如何"吃"？
研究方向：数据利用能力的提升需要半监督学习、无监督学习、弱监督学习等方法的发展

5. 代价敏感

现状：目前的机器学习技术主要降低错误率
问题：大多数领域中的错误代价都不一样，如癌症筛查、信用预测
挑战问题：今后10年能否"趋利避害"？在达到较低的总错误率的基础上，如何"趋"、如何"避"？
研究方向：代价敏感学习需要新的损失函数设计、评估指标改进等

6. 可信任

需求：机器学习系统需要保证"不作恶"
问题示例：不鲁棒的机器学习系统示例：熊猫图像在加入特定噪声之后，人类仍然可以正确识别，然而机器却识别为长臂猿。由于数据降维产生的信息损失有可能产生信息误解。
挑战问题：今后10年如何保证"不作恶"？
研究方向：可信任性的提升需要鲁棒性研究、公平性保证、安全性保障等

六大挑战的关系：