机器学习基础学习笔记（二）机器学习概述

最新推荐文章于 2024-05-05 15:02:48 发布

原创最新推荐文章于 2024-05-05 15:02:48 发布 · 997 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

深度学习学习笔记专栏收录该内容

11 篇文章

订阅专栏

本文深入解析了机器学习的基本概念，包括特征、标签、样本、数据集等关键术语，并详细介绍了机器学习的训练与测试过程。此外，还探讨了模型、学习准则及损失函数等核心要素。

机器学习概述

一.基本概念
二.机器学习的三个基本要素

机器学习（Machine Learning，ML）就是让计算机从数据中进行自动学习，得到某种知识（或规律）。
以下内容均为 https//nndl.github.io/nndl-book.pdf的学习笔记。

一.基本概念

1.名词

特征（feature） 标签（label）
样本（sample）/示例（instance）：标记好样特征以及对应标签的数据。
数据集（Data set):一组样本构成的集合。数据集分为训练集（Training set) 与测试集(Test set),训练集用于训练模型，测试集用于检验模型好坏。
特征向量（Feature Vector）：用一个𝐷 维向量𝒙 = [𝑥1, 𝑥2, ⋯ , 𝑥𝐷]T 表示一个样本的所有特征构成的向量。每一维表示一个特征。标签用y表示。

2.训练/学习过程

假设训练集𝒟 由𝑁 个样本组成，其中每个样本都是独立同分布的（Identically and Independently Distributed，IID），即独立地从相同的数据分布中抽取的，记为：
𝒟 = {(𝒙(1), 𝑦(1)), (𝒙(2), 𝑦(2)), ⋯ , (𝒙(𝑁), 𝑦(𝑁))}. (2.1)

  *（注意：独立同分布的即每个样本(𝒙, 𝑦) ∈ 𝒳 × 𝒴 是从𝒳 和𝒴 的联合空间中按照某个未知分布𝑝𝑟(𝒙, 𝑦) 独立地随机产生的．这里要求样本分布𝑝𝑟(𝒙, 𝑦) 必须是固定的（虽然可以是未知的），不会随时间而变化）*

给定训练集𝒟，我们希望让计算机从一个函数集合ℱ = {𝑓1(𝒙), 𝑓2(𝒙), ⋯} 中自动寻找一个“最优”的函数𝑓∗(𝒙) 来近似每个样本的特征向量𝒙 和标签𝑦 之间的真实映射关系．对于一个样本𝒙，我们可以通过函数𝑓∗(𝒙) 来预测其标签的值：
𝑦̂ = 𝑓∗(𝒙), (2.2)

或标签的条件概率：
𝑝(̂ 𝑦|𝒙) = 𝑓∗𝑦 (𝒙). (2.3)

如何寻找这个“最优”的函数𝑓∗(𝒙) 是机器学习的关键，一般需要通过学习算法（Learning Algorithm）𝒜 来完成．
在有些文献中，学习算法也叫作学习器（Learner）．这个寻找过程通常称为**学习（Learning）或训练（Training）**过程．

3.测试过程

使用学习到的函数𝑓∗(𝒙) 来预测芒测试样本的好坏．为了评价的公正性，我们还是独立同分布地抽取一组样本作为测试集𝒟′，并在测试集进行测试，计算预测结果的准确率：
在这里插入图片描述
其中𝐼(⋅) 为指示函数，|𝒟′| 为测试集大小．

4.总结

综上所述，机器学习系统如下所示：
在这里插入图片描述

二.机器学习的三个基本要素

1.模型

输入空间𝒳 和输出空间𝒴 构成了一个样本空间．对于样本空间中的样本**(𝒙, 𝑦) ∈ 𝒳 × 𝒴**，假定𝒙 和𝑦 之间的关系可以通过一个未知的真实映射函数𝑦 =𝑔(𝒙) 或真实条件概率分布𝑝𝑟(𝑦|𝒙)来描述．机器学习的目标是找到一个模型来近似真实映射函数𝑔 ∶ 𝒳 → 𝒴．似真实映射函数𝑔(𝒙) 或真实条件概率分布𝑝𝑟(𝑦|𝒙)．
由于我们不知道真实的映射函数𝑔(𝒙) 或条件概率分布𝑝𝑟(𝑦|𝒙) 的具体形式，因而只能根据经验来假设一个函数集合ℱ，称为假设空间（Hypothesis Space），然后通过观测其在训练集𝒟 上的特性，从中选择一个理想的假设（Hypothesis）𝑓∗ ∈ ℱ．
假设空间ℱ 通常为一个参数化的函数族
ℱ = {𝑓(𝒙; 𝜃)|𝜃 ∈ ℝ𝐷}, (2.5)

其中𝑓(𝒙; 𝜃) 是参数为𝜃 的函数，也称为模型（Model），𝐷 为参数的数量．
常见的假设空间可以分为线性和非线性两种，对应的模型𝑓 也分别称为线性模型和非线性模型．
1）线性模型
线性模型的假设空间为一个参数化的线性函数族，即对于分类问题，一般为广义线性函数，参见公式：
𝑓(𝒙; 𝜃) = 𝒘T𝒙 + 𝑏, (2.6)

其中参数𝜃 包含了权重向量𝒘 和偏置𝑏．
2）非线性模型
广义的非线性模型可以写为多个非线性基函数𝜙(𝒙) 的线性组合
𝑓(𝒙; 𝜃) = 𝒘T𝜙(𝒙) + 𝑏, (2.7)

其中𝜙(𝒙) = [𝜙1(𝒙), 𝜙2(𝒙), ⋯ , 𝜙𝐾 (𝒙)]T 为𝐾 个非线性基函数组成的向量，参数𝜃包含了权重向量𝒘 和偏置𝑏．
如果𝜙(𝒙) 本身为可学习的基函数，比如
𝜙𝑘(𝒙) = ℎ(𝒘T𝑘𝜙′(𝒙) + 𝑏𝑘), ∀1 ≤ 𝑘 ≤ 𝐾, (2.8)

其中ℎ(⋅) 为非线性函数，𝜙′(𝒙) 为另一组基函数，𝒘𝑘 和𝑏𝑘 为可学习的参数，则𝑓(𝒙; 𝜃) 就等价于神经网络模型．

2.学习准则

1）一个好的模型所需条件
一个好的模型𝑓(𝒙, 𝜃∗) 应该在所有(𝒙, 𝑦) 的可能取值上都与真实映射函数𝑦 = 𝑔(𝒙) 一致，即
|𝑓(𝒙, 𝜃∗) − 𝑦| < 𝜖, ∀(𝒙, 𝑦) ∈ 𝒳 × 𝒴, (2.9)

或与真实条件概率分布𝑝𝑟(𝑦|𝒙) 一致，即
|𝑓𝑦(𝒙, 𝜃∗) − 𝑝𝑟(𝑦|𝒙)| < 𝜖, ∀(𝒙, 𝑦) ∈ 𝒳 × 𝒴, (2.10)

 其中**𝜖** 是一个很小的正数，**𝑓𝑦(𝒙, 𝜃∗)** 为模型预测的条件概率分布中𝑦 对应的概率．

2）模型好坏评价-期望风险
模型𝑓(𝒙; 𝜃) 的好坏可以通过期望风险（Expected Risk/Error）ℛ(𝜃) 来衡量，其定义为
ℛ(𝜃) = 𝔼(𝒙,𝑦)∼𝑝𝑟(𝒙,𝑦)[ℒ(𝑦, 𝑓(𝒙; 𝜃))], (2.11)
其中𝑝𝑟(𝒙, 𝑦) 为真实的数据分布，ℒ(𝑦, 𝑓(𝒙; 𝜃)) 为损失函数，用来量化两个变量之间的差异．

2.1损失函数

损失函数：非负实数函数，用来量化实际值与预测值之间的差异。

函数形式	优缺点
0-1损失函数（（0-1 Loss Function）	不连续且导数为0，难以优化
平方损失函数（Quadratic Loss Function）	一般不适用于分类问题
交叉熵损失函数（Cross-Entropy Loss Function）	当y为one-hot编码时，为负对数似然函数，用于分类
Hinge 损失函数（Hinge Loss Function）	主要用于支持向量机（SVM）中

2.2风险最小化准则

真实数据分布和映射关系实际未知，无法计算期望风险，但可在训练集上计算经验风险Empirical Risk）**，，即在训练集上的平均损失：
在这里插入图片描述
经验风险最小化（Empirical Risk Minimization，ERM）准则：是找到一组参数𝜃∗ 使得经验风险最小。