54、机器学习中的分类与回归评估及应用-优快云博客

本文链接：https://blog.youkuaiyun.com/postgres8guard/article/details/152773773

机器学习中的分类与回归评估及应用

分类任务评估指标

在机器学习的分类任务中，有多种评估指标可用于衡量分类器的性能。

特异性（Specificity）

特异性，也称为真负率（TNR），用于评估正确识别出的真负样本的比例。其计算公式为：
[
\text{Specificity} = \text{True Negative Rate (TNR)} = \frac{\text{True Negatives (TN)}}{\text{True Negatives (TN)} + \text{False Positives (FP)}}
]
例如，在疾病诊断中，它可以表示正确识别为未患某种疾病的人的百分比。

F1分数（F1 Score）

F1分数是召回率（Recall）和精确率（Precision）的调和平均值，计算公式如下：
[
\begin{align }
\text{F1 Score} &= \frac{2}{\text{Precision}^{-1} + \text{Recall}^{-1}}\
&= 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}\
&= \frac{\text{True Positive (TP)}}{\text{True Positive (TP)} + \frac{1}{2}(\text{False Positive (FP)} + \text{False Negative (FN)})}
\end{align }
]
F1分数同时考虑了假正例和假反例。当类别分布不均匀时，F1分数通常比精确率更有用。如果假正例和假反例的数量相似，精确率表现最佳；如果两者数量差异很大，则最好同时考虑召回率和精确率。

P - R曲线（Precision - Recall Curve）

基于精确率和召回率的结果，可以绘制相应的精确率 - 召回率曲线（P - R曲线）。其纵轴为精确率，横轴为召回率，用于判断分类结果的质量。从P - R曲线可以得出以下结论：
- 图中接近精确率0.5的线相当于基线。如果P - R曲线在基线之上，其分类器更优；否则，分类器较差。
- 对于一个分类器，其召回率和精确率不能同时优化。召回率越高，精确率越低，反之亦然。我们只能在两者之间进行权衡。
- 对于两个分类器，可以通过P - R曲线比较它们的优劣。曲线下面积（AUC）越大，分类性能越好。

ROC曲线（Receiver Operating Characteristic Curve）

ROC曲线即受试者工作特征曲线。在用于分类器评估时，“受试者”指的是分类器。它最初由电子和雷达工程师在二战期间发明，用于雷达信号分析，后来在多个领域得到应用，近年来才引入机器学习领域。

ROC曲线用于描述分类器在识别阈值变化时的预测能力。其纵轴为真阳性率（TPR），横轴为假阳性率（FPR）。真阳性率也称为灵敏度或召回率，假阳性率的计算公式为：
[
\text{False Positive Rate (FPR)} = \frac{\text{False Positive (FP)}}{\text{False Positive (FP)} + \text{True Negative (TN)}}
]
并且，假阳性率满足：
[
\text{False Positive Rate (FPR)} = 1 - \text{True Negative Rate (TNR)} = 1 - \text{Specificity}
]
从ROC曲线可以得出以下结论：
- 图中连接(0, 0)到(1, 1)的对角线为基线。如果ROC曲线在基线之上，其分类器更优；否则，分类器较差。
- 对于一个分类器，其真阳性率（灵敏度）和假阳性率（1 - 特异性）不能同时优化。真阳性率越高，假阳性率越高（即特异性越低）。需要根据ROC曲线进行权衡，选择最佳阈值。
- 对于两个分类器，可以通过ROC曲线比较它们的优劣。曲线下面积（AUC）越大，分类性能越好。

马修斯相关系数（Matthew’s Correlation Coefficient）

马修斯相关系数（MCC）是一种更可靠的评估分类器性能的方法，其表达式为：
[
\text{MCC} = \frac{\text{TP} \times \text{TN} - \text{FP} \times \text{FN}}{\sqrt{(\text{TP} + \text{FP})(\text{TP} + \text{FN})(\text{TN} + \text{FP})(\text{TN} + \text{FN})}}
]
只有当列联表（混淆矩阵）中的四个指标，即真阳性（TP）、假阴性（FN）、假阳性（FP）和真阴性（TN）都取得良好结果时，马修斯相关系数才会有较高的得分，它与数据样本中正负元素的数量成正比。

分类任务应用领域

分类是机器学习中最常见的任务，应用领域非常广泛，包括但不限于以下几个方面：
- 计算机视觉（CV） ：手写数字和文本识别、光学字符识别（OCR）、图像和视频中的动作识别和内容理解、医学影像分析、人脸识别、指纹识别等生物特征识别。
- 智能监控系统 ：对监控视频中的移动对象进行分类识别，如公共交通中车辆类型、大小、速度的检测，监控视频中行人的重识别，异常场景的检测。
- 自然语言处理（NLP） ：文本分类，即将文档集合中的文本根据预定义的主题类别和规则自动划分为一个或多个类别。常见应用包括电子邮件分类、网页分类、文本索引、自动摘要、信息检索和信息推送。
- 语音和音频 ：语音识别和音频场景分类。语音识别将语音波转换为文本；音频场景分类识别音频流声学内容对应的特定场景语义标签，以感知和理解周围环境。
- 医学人工智能 ：如使用深度学习诊断糖尿病视网膜病变、使用深度神经网络对皮肤癌进行分类、通过视网膜光学相干断层扫描（OCT）图像筛查致盲性视网膜疾病、基于肿瘤组织DNA甲基化数据区分中枢神经系统肿瘤等。

以下是分类任务应用领域的简单流程图：

graph LR
    A[分类任务] --> B[计算机视觉]
    A --> C[智能监控系统]
    A --> D[自然语言处理]
    A --> E[语音和音频]
    A --> F[医学人工智能]
    B --> B1[手写数字识别]
    B --> B2[医学影像分析]
    C --> C1[车辆检测]
    C --> C2[行人重识别]
    D --> D1[文本分类]
    D --> D2[信息检索]
    E --> E1[语音识别]
    E --> E2[音频场景分类]
    F --> F1[疾病诊断]
    F --> F2[肿瘤区分]

回归任务问题与定义

回归，也称为回归分析，属于监督学习范式。下面将介绍回归问题、定义、模型以及其底层假设。

回归问题

回归是对样本数据之间的关系进行统计分析，并用于预测未知输入数据。许多领域都涉及回归问题，例如根据过去的股票交易数据预测未来的股票趋势，根据房屋的大小、结构、位置和建造年份等数据预测房价。

“回归”一词由弗朗西斯·高尔顿爵士在19世纪80年代提出。他在1886年发表的一篇论文中首次使用该术语，因为他发现高个子祖先的后代身高往往会回归到正常平均值。此后，“回归”逐渐在统计学中广泛用于描述变量之间的关系。

从另一个角度看，回归分析的本质是找到一条拟合多个样本数据点关系的曲线，用回归函数表示，体现为回归模型。在拟合多个数据点的过程中，需要进行一定的折衷，以找到合适的曲线，这是向多个数据点平均值“回归”的结果。

回归的定义

在机器学习中，回归是基于有标签的输入和输出数据样本训练回归算法，得到最优回归假设，然后用它来预测未知输入数据的过程。输出是连续的对应值。

回归和分类都属于监督学习范式，都需要基于有标签的样本进行训练，但它们的输出有所不同，具体如下表所示：
| 任务 | 输出 | 示例 |
| — | — | — |
| 回归 | 连续值 | 销售预测、风险分析 |
| 分类 | 离散类别 | {晴天, 多云, 雨天}, {0, 1, …, 9} |

回归模型

回归模型可以形式化为以下方程：
[
y = f(\mathbf{x}, \mathbf{\theta}) + \varepsilon
]
其中，$y$ 是因变量，$\mathbf{x}$ 是自变量，$\mathbf{\theta}$ 是参数，$\varepsilon$ 是误差项，$f(\mathbf{x}, \mathbf{\theta})$ 称为回归函数。在回归分析领域，有以下一些同义词：
- 自变量：也称为预测变量或解释变量。
- 因变量：也称为结果变量或响应变量。
- 参数：也称为系数或权重。

误差项指的是随机抽样产生的噪声或模型未包含的变量的影响。回归模型的目标是基于有标签的样本数据找到最佳拟合的回归函数。

底层假设

为了使回归成为一种有效的估计自变量和因变量之间关系的方法，通常依赖于以下一些底层假设：
- 样本能代表总体。
- 自变量的测量没有误差。
- 给定自变量时，模型的误差 $\varepsilon$ 的期望值为零，即 $E[\varepsilon|\mathbf{x}] = 0$。
- 误差 $\varepsilon$ 的方差在所有输入数据上是恒定的，即具有同方差性。
- 误差 $\varepsilon$ 是不相关的，在数学上满足误差的方差 - 协方差矩阵的对角性质。

常用回归算法

回归算法在机器学习中有着广泛的应用，以下介绍几种常用的回归算法：
- 多元线性回归 ：是一种基于多个自变量来预测因变量的线性回归模型。它假设因变量和自变量之间存在线性关系，通过最小化误差平方和来确定回归系数。例如，在预测房价时，可以将房屋面积、房间数量、地段等作为自变量。
- 多项式回归 ：通过对自变量进行多项式变换，将线性回归扩展到非线性关系。例如，对于一个自变量 $x$，可以考虑 $x^2$、$x^3$ 等多项式项，以拟合更复杂的曲线。
- 岭回归 ：在多元线性回归的基础上，加入了正则化项，通过对回归系数的大小进行约束，防止过拟合。当自变量之间存在多重共线性时，岭回归可以提供更稳定的估计。
- Lasso回归 ：同样是一种带有正则化的回归方法，与岭回归不同的是，Lasso回归可以使一些回归系数精确地变为零，从而实现特征选择。
- 贝叶斯回归 ：基于贝叶斯定理，将回归系数看作随机变量，通过先验分布和观测数据来更新后验分布，从而得到回归系数的估计。

回归损失函数

在回归任务中，损失函数用于衡量预测值与真实值之间的差异。以下是几种常见的损失函数：
- 均方误差（MSE） ：是最常用的损失函数之一，计算预测值与真实值之差的平方的平均值。公式为：$MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y} i)^2$，其中 $y_i$ 是真实值，$\hat{y}_i$ 是预测值，$n$ 是样本数量。
- 平均绝对误差（MAE） ：计算预测值与真实值之差的绝对值的平均值，公式为：$MAE = \frac{1}{n} \sum {i=1}^{n} |y_i - \hat{y} i|$。
- 平均偏差误差（MBE） ：$MBE = \frac{1}{n} \sum {i=1}^{n} (y_i - \hat{y} i)$，它可以反映预测值的整体偏差方向。
- 相对绝对误差（RAE） ：$RAE = \frac{\sum {i=1}^{n} |y_i - \hat{y} i|}{\sum {i=1}^{n} |y_i - \bar{y}|}$，其中 $\bar{y}$ 是真实值的平均值，它衡量了预测误差相对于平均误差的大小。
- 相对平方误差（RSE） ：$RSE = \frac{\sum_{i=1}^{n} (y_i - \hat{y} i)^2}{\sum {i=1}^{n} (y_i - \bar{y})^2}$。
- Huber损失 ：结合了均方误差和平均绝对误差的优点，在误差较小时使用均方误差，误差较大时使用平均绝对误差，对异常值有较好的鲁棒性。
- 对数损失 ：常用于逻辑回归等分类问题的回归形式，它通过对数函数来衡量预测概率与真实标签之间的差异。
- 决定系数 ：也称为 $R^2$ 得分，用于评估回归模型的拟合优度，取值范围在 $[0, 1]$ 之间，越接近1表示模型拟合效果越好。

回归任务应用领域

回归分析在各个领域都有重要的应用，以下是一些常见的应用场景：
- 经济学与金融 ：预测股票价格、汇率走势、经济增长等。例如，通过分析宏观经济指标和公司财务数据来预测股票的未来表现。
- 市场营销 ：预测销售额、客户需求等。可以根据市场调研数据、广告投入等因素来预测产品的销售情况。
- 医疗保健 ：预测疾病的发病率、治疗效果等。例如，根据患者的年龄、性别、病史等信息预测某种疾病的发病风险。
- 环境科学 ：预测气候变化、污染物扩散等。通过对气象数据、环境监测数据的分析，建立回归模型来预测环境变化趋势。
- 工程领域 ：在机械工程中预测设备的性能和寿命，在土木工程中预测建筑结构的承载能力等。

以下是回归任务应用领域的流程图：

graph LR
    A[回归任务] --> B[经济学与金融]
    A --> C[市场营销]
    A --> D[医疗保健]
    A --> E[环境科学]
    A --> F[工程领域]
    B --> B1[股票价格预测]
    B --> B2[经济增长预测]
    C --> C1[销售额预测]
    C --> C2[客户需求预测]
    D --> D1[疾病发病率预测]
    D --> D2[治疗效果预测]
    E --> E1[气候变化预测]
    E --> E2[污染物扩散预测]
    F --> F1[设备性能预测]
    F --> F2[建筑承载能力预测]

综上所述，分类和回归任务在机器学习中占据着重要的地位。分类任务通过各种评估指标来衡量分类器的性能，并在多个领域有着广泛的应用；回归任务则通过不同的算法和损失函数来建立模型，以预测连续值，同样在众多领域发挥着关键作用。了解这些任务的原理、算法和应用，有助于我们更好地利用机器学习解决实际问题。