机器学习监督式学习算法基础

原创已于 2022-05-09 21:59:51 修改 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

于 2022-04-29 23:17:34 首次发布

机器学习学习笔记专栏收录该内容

4 篇文章

订阅专栏

本文深入探讨了监督学习的基本概念，包括特征组、标签和损失函数。通过无约束和带模型假设的经验损失最小化算法架构，解释了如何寻找最优模型。以鸢尾花数据集为例，展示了感知器算法在分类问题中的应用，并讨论了L1和L2正则化在防止过拟合中的作用。最后，给出了鸢尾花分类的代码实现。

监督式学习算法基础

2.1监督式学习的基本概念
- 2.1.1 基本概念解释
- 2.1.2损失函数举例
2.2经验损失最小化架构
- 2.2.1无约束经验损失最小化算法架构
- 2.2.2带模型假设的经验损失最小化算法架构
2.3监督式学习与经验损失最小化实例
2.4正则化算法
代码

2.1监督式学习的基本概念

2.1.1 基本概念解释

特征组：将每个对象的 $n$ 个特征构成的向量 $x=(x_1,x_2,...,x_n)\in\mathbb{R^n}$ 称为该对象的特征组，设 $X\subseteq\mathbb{R^n}$ 是特征组的所有可能取值构成的集合，称 $X$ 为样本空间

标签：在回归问题中，训练数据含有一个数值标签 $y\in\mathbb{R}$ ;在 $k$ 元分类问题中，训练数据含有一个向量标签 $y\in[0,1]^k$ 。设 $Y$ 为全体可能的取值，称 $Y$ 为标签空间

特征分布：
标签分布：
举例说明：特征 $X$ （就是变量）是在 $[- 1, 1]$ 服从均匀分布，标签 $y$ 服从分布 $N (x, 0.1)$ 的正态分布。
记均匀分布为 $D$ ，称 $D$ 为特征分布，用 $x\sim D$ 表示 $x$ 为依特征分布 $D$ 的一个随机采样

$x$ 对应的标签 $y$ 服从 $D_x$ ，称 $D_x$ 为特征组 $x$ 的标签分布，用 $y\sim D_x$ 表示 $y$ 为依 $D_x$ 的标签分布
eg. $x = 1$ 时 $y$ 的标签分布为 $N (1, 0.1)$

2.1.2损失函数举例

损失函数：设 $Y$ 为标签分布。损失函数时一个从 $Y\times Y$ 映射到正实数的函数 $l:Y\times Y\to \mathbb{R^+}$ ，并且要求其具有如下性质：对任意 $y\in Y$ ，有
$l (y, y) = 0$
eg. 0-1损失函数
$\begin{cases} 0 & 如果z=y \\ 1 & 如果z\ne y \\ \end{cases}$
eg. 平方损失函数
$l(y,z)=(y-z)^2$
损失函数就是用来计算模型误差，以此来输出优化模型

2.2经验损失最小化架构

训练数据与经验损失：给定损失函数 $l$ 以及一组数据
$S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
其中， $x^{(1)},x^{(2)},...,x^{(m)}\sim D$ 为 $X$ 中 $m$ 个依特征分布 $D$ 的独立采样，并且对任意 $1\leq i\leq m$ 有 $y^{(i)}\sim D_x^{(i)}$ 。将 $S$ 称为训练数据。将 $h$ 在 $S$ 中所有数据的平均损失为 $h$ 的经验损失，用如下记号表示
$L_S(h)=\frac{1}{m} \sum_{i=1}^ml(h(x^{(i)}), y^{(i)})$
当训练数据的规模足够大时，Hoeffding不等式保证了经验损失能够良好地近似期望损失。
Hoeffding不等式个人理解就是在样本足够大时误差可以足够小

2.2.1无约束经验损失最小化算法架构

无约束经验损失最小化算法架构
给定样本空间 $X$ 、标签空间 $Y$ 、模型空间 $\phi$ 和损失函数 $l:Y\times Y\to \mathbb{R^+}$
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出模型： $h_S=\underset{h\in \phi}{argmin}L_S(h)$

无约束经验损失最小化算法的特点在于它精确的拟合了训练数据。实际上可以应用拉格朗日插值法构造一个多项式 $h_S(x)$ ,使经验损失 $L_S(h)=0$ 。但是这就引出了机器学习中常发生的问题——过度拟合。

下面举例直观感受过度拟合

在这里插入图片描述

$12

容易看出过下面的模型出现了过度拟合。
由此引出概念——模型假设通过对训练数据的观察以及对背景的理解，可以对模型做出合理假设，从而降低过拟合。

2.2.2带模型假设的经验损失最小化算法架构

模型假设：模型空间 $\phi$ 的任意一个子集 $H$ 都称为一个模型假设。
一个带有模型假设的经验损失最小化算法的任务是计算在假定的模型假设中的经验损失最小的那个模型

带模型假设的经验损失最小化算法架构
给定样本空间 $X$ 、标签空间 $Y$ 、模型空间 $\phi$ 和损失函数 $l:Y\times Y\to \mathbb{R^+}$
取定模型假设 $H$
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
输出模型： $h_S={argmin}_{h\in \phi}L_S(h)$

2.3监督式学习与经验损失最小化实例

2.3.1鸢尾花实例

鸢尾花数据集，数据集包含150个样本，分属于3个鸢尾花种：山鸢尾、变色鸢尾以及弗吉尼亚鸢尾。
5个鸢尾花数据集的样本

花萼长	花萼宽	花瓣长	花瓣宽	属种
5.1	3.5	1.4	0.2	山鸢尾
7.0	3.2	4.7	1.4	变色鸢尾
4.8	3.0	1.4	0.3	山鸢尾
6.4	2.8	5.6	2.1	弗吉尼亚鸢尾
6.2	3.0	4.9	1.8	弗吉尼亚鸢尾

区分山鸢尾和非山鸢尾
横坐标花萼长，纵坐标花萼宽
蓝色山鸢尾+1，黄色非山鸢尾-1
在这里插入图片描述

2.3.2感知器算法

假定一条直线有如下方程： $< w, x > + b = 0$ 。
对平面上的一个点 $x^*=(x_1^*,x_2^*)$ ，
如果它位于直线上方，则 $w,x^*>+b>0$ ；
如果它位于直线下方，则 $w,x^*>+b<0$ ；
如果它恰巧位于直线上，则 $w,x^*>+b=0$ 。
若 $w,x^*>+b=0$ 的直线能够分离训练数据中的正负采样，
则它一定满足如下条件：

$y^{(i)}=Sign(<w,x^{(i)}>+b),i=1,2,...,m$
这里的 $y^{(i)}$ 就是样本的标签

其中 $S i g n$ 是如下符号函数：
$\begin{cases} -1 & 如果z<0 \\ 0 & 如果z= y \\ +1 & 如果z>0 \end{cases}$

作出假设：取定 $w=(w_1,w_2)\in \mathbb{R^2}$ 以及 $b\in \mathbb{R}$
$h_{w,b}=Sign(<w,x>+b)$
并定义模型假设 $H=\{h_{w,x}:w\in \mathbb{R^2},b\in \mathbb{R^2}\}$
采用0-1损失函数，有如下形式：
$l(h_{w,x}(x^{(i)}),y^{(i)})=\frac{1-y^{(i)}Sign(<w,x^{(i)}>+b)}{2}$
可见经验损失最小化算法的目标应当为：

经验损失最小化算法的目标就是使经验损失函数最小，误差最小

$\underset{w,b}{min}\frac{1}{m}\sum_{i=1}^m\frac{1-y^{(i)}Sign(<w,x^{(i)}>+b)}{2}$
上式经过简单整理，就等价于如下优化问题：

$\underset{w,b}{max}\frac{1}{m}\sum_{i=1}^my^{(i)}Sign(<w,x^{(i)}>+b)$

$y^{(i)}$ 是符号函数 $S i g n$ 的取值 +1，-1，确切来说是样本的标签，样本本身自带的数据
分离后正采样点应位于直线上方，负采样点位于直线下方

如果存在位于直线下方的正采样点感知器算法将感知空间中的点并朝着这个点旋转，直至该点位于直线上方，在解析几何中，为了使直线 $y = < w, x > + 1$ 朝着点 $x^{(i)},y^{(i)})$ 转动，可以采用如下方法：
$w\gets w+y^{(i)}x^{(i)}\\ b\gets b+y^{(i)}$

感知器算法
$w$ =(0,0),b=0,done=False
while not done:
done = True
for i=1,2,…,m
if $y^{(i)}Sign(<w,x^{(i)}>+b)\leq0$ :
$w\gets w+y^{(i)}x^{(i)}$
$b\gets b+y^{(i)}$
done = False
return $w, b$

2.3.3感知器算法实现山鸢尾花分类

在这里插入图片描述
下图为预测

2.4正则化算法

奥卡姆剃刀法则：如无必要，勿增实体
$n$ 元 $d$ 次多项式可以用 $\begin{pmatrix}n+d \\ n\\ \end{pmatrix}$ 个实参数 $\{w_{a_1,a_2,...,a_n}:a_1,a_2,...,a_n\in \mathbb{z}_{\ge 0},a_1+a_2+...+a_n \leq d \}$ 表示。证明方法类似与高中排列组合中学过的隔板法
$L_1$ 范数 $\begin{vmatrix}w\end{vmatrix}$ 定义为：
$\begin{vmatrix}w \end{vmatrix}=\begin{vmatrix}w_1 \end{vmatrix}+\begin{vmatrix}w_2 \end{vmatrix}+...+\begin{vmatrix}w_n \end{vmatrix}$

$L_2$ 范数 $\begin{Vmatrix}w\end{Vmatrix}$ 定义为：
$\begin{Vmatrix}w\end{Vmatrix}=\sqrt{w_1^2+w_2^2+...+w_n^2}$
机器学习中普遍认为范数 $w$ 越小，模型就越简单

2.4.1 $L_1$ 正则化

$L_1$ 正则化经验损失最小化算法
参数化模型假设 $H=\{H_w:w\in \mathbb{R^n}\}$
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
计算优化问题模型 $w^*$ :
$\underset{w\in \mathbb{R^n}}{min}L_S(h_w)+\lambda \begin{vmatrix}w\end{vmatrix}$
输出：模型 $h_w^*$

2.4.2 $L_2$ 正则化

由于 $L_1$ 范数求解的目标函数不可微，因此使用 $L_2$ 正则化（L1正则化的求解可以使用搜索算法中的随机梯度下降算法求解）

$L_2$ 正则化经验损失最小化算法
参数化模型假设 $H=\{H_w:w\in \mathbb{R^n}\}$
输入： $m$ 条训练数据 $S=\{(x^{(1) },y^{(1)}),(x^{(2) },y^{(2)}),...,(x^{(m) },y^{(m)}) \}$
计算优化问题模型 $w^*$ :
$\underset{w\in \mathbb{R^n}}{min}L_S(h_w)+\lambda\begin{Vmatrix}w\end{Vmatrix}^2$
输出：模型 $h_w^*$

2.4.1 $L_1,L_2$ 正则化解释

正则化算法就是在原来的线性模型中，加入一个惩罚项，引导算法在 $L_S$ 接近的情况下选出范数较小的那个（大道至简）
$L_1$ 引导算法参数逐个将为0
$minL_S(h_w)\\ 约束：\begin{vmatrix}w\end{vmatrix}\leq R$
模型的约束区间为多面体

$L_2$ 正则化均匀的降低多项式的系数，输出越来越平滑的模型
$minL_S(h_w)\\ 约束：\begin{Vmatrix}w\end{Vmatrix}^2\leq R^2$
约束区间为圆、球…

代码

'''鸢尾花'''
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from perceptron import Perceptron
import matplotlib.pyplot as plt

iris = datasets.load_iris()
X= iris["data"][:,(0,1)]
y = 2 * (iris["target"]==0).astype(np.int) - 1  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=3)

plt.figure(1)
plt.axis([4,8,1,5])
plt.plot(X_train[:, 0][y_train==1], X_train[:, 1][y_train==1], "bs", ms=3)
plt.plot(X_train[:, 0][y_train==-1], X_train[:, 1][y_train==-1], "yo", ms=3)

model = Perceptron()
model.fit(X_train, y_train)

plt.figure(2)
plt.axis([4,8,1,5])
plt.plot(X_train[:, 0][y_train==1], X_train[:, 1][y_train==1]+0.1, "bs", ms=3)
plt.plot(X_train[:, 0][y_train==-1], X_train[:, 1][y_train==-1]-0.1, "yo", ms=3)
x0 = np.linspace(4, 8, 200)
w = model.w
b = model.b
line = -w[0]/w[1] * x0 - b/w[1]
plt.plot(x0, line)

plt.figure(3)
plt.axis([4,8,1,5])
plt.plot(X_test[:, 0][y_test==1], X_test[:, 1][y_test==1], "bs", ms=3)
plt.plot(X_test[:, 0][y_test==-1], X_test[:, 1][y_test==-1], "yo", ms=3)
x0 = np.linspace(4, 8, 200)
line = -w[0]/w[1] * x0 - b/w[1]
plt.plot(x0, line)