深度学习基础：回归问题及其性能评价（回归性能度量方法、MAE、MSE、logistic回归损失）

原创已于 2025-04-29 09:38:29 修改 · 842 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#回归 #深度学习 #机器学习 #MAE和MSE #logistic回归损失

于 2022-05-06 11:54:29 首次发布

深度学习专栏收录该内容

7 篇文章

订阅专栏

1 回归问题

在这里插入图片描述
回归问题是机器学习与统计学中的核心任务之一，其目标是通过建模自变量（特征）与因变量（目标变量）之间的函数关系，预测连续的数值输出。以下是关于回归问题的详细解析：

1. 核心定义与特点

本质：回归问题旨在从数据中拟合出能描述变量间关系的数学模型，用于预测连续值。例如，根据房屋面积、位置等特征预测房价，或根据历史气温数据预测未来天气。
特点：
- 输出连续：预测结果为实数或浮点数（如温度、股票价格、销售额等）。
- 函数拟合：通过优化算法（如最小二乘法、梯度下降）找到最佳拟合函数（如线性函数、多项式函数）。
- 不确定性建模：可结合概率分布（如高斯分布）对预测结果的不确定性进行量化。

2. 常见类型

类型	描述	典型应用
线性回归	假设自变量与因变量呈线性关系，模型形式为 ( y = w^T x + b )，权重 ( w ) 通过最小化均方误差（MSE）求解。	经济指标预测、简单趋势分析
多项式回归	引入自变量的高次项，拟合非线性关系（如 ( y = w_0 + w_1 x + w_2 x^2 )）。	复杂曲线拟合（如人口增长模型）
正则化回归	在损失函数中添加L1（Lasso）或L2（Ridge）正则项，防止过拟合。	高维数据降维、特征选择
树模型回归	使用决策树或集成模型（如随机森林、GBDT）捕捉非线性关系，适合复杂数据模式。	客户价值预测、医学诊断

3. 应用场景

金融：股票价格预测、风险评估。
医疗：基于患者体征预测疾病风险（如糖尿病、心脏病）。
气象：根据历史数据预测气温、降水量。
工业：设备寿命预测、生产质量监控。
社会科学：人口增长分析、经济政策效果评估。

4. 与分类问题的区别

维度	回归问题	分类问题
输出类型	连续值（如价格、温度）	离散标签（如垃圾邮件/非垃圾邮件）
目标	最小化预测值与真实值的误差（如MSE）	最大化分类准确率（如准确率、F1值）
模型输出	直接输出数值（可能加概率分布）	输出类别概率（Softmax/Sigmoid）
典型算法	线性回归、岭回归、神经网络	逻辑回归、支持向量机、决策树

5. 关键流程与技术

模型选择：根据数据特性选择线性/非线性模型，平衡模型复杂度与过拟合风险。
特征处理：
- 标准化：消除特征量纲差异（如归一化、Z-score标准化）。
- 高维处理：通过降维（PCA）或正则化应对多重共线性。
损失函数：
- 均方误差（MSE）：常用但对异常值敏感。
- 平均绝对误差（MAE）：鲁棒性强，适合噪声数据。
- Huber损失：结合MSE和MAE优点，平滑处理异常值。
优化算法：梯度下降、随机梯度下降（SGD）、Adam等，调整学习率加速收敛。

6. 挑战与解决方案

过拟合：通过正则化、交叉验证、早停法（Early Stopping）缓解。
数据不均衡：对稀有区间样本重采样或调整损失函数权重。
非线性关系：引入核方法（如SVM）、树模型或神经网络（如MLP）。

总结

回归问题的核心在于通过数学建模捕捉变量间的连续关系，其应用覆盖科学研究和工业实践的广泛领域。选择合适的模型、特征工程方法和评估指标是解决回归问题的关键。

2 回归性能度量方法

在这里插入图片描述
回归性能度量方法是评估模型预测连续变量效果的核心工具，其选择需结合数据特征与应用场景。以下是主要度量方法及其特点：

一、核心指标

均方误差（MSE）
- 公式：( \text{MSE} = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2 )
- 特点：对较大误差敏感（平方放大效应），常用于梯度下降优化，但易受异常值影响。
- 适用场景：需强调大误差惩罚的场合（如金融风险评估）。
均方根误差（RMSE）
- 公式：( \text{RMSE} = \sqrt{\text{MSE}} )
- 特点：与目标变量单位一致，解释性更强，但同样对异常值敏感。
- 适用场景：需要直观误差量级的领域（如房价预测）。
平均绝对误差（MAE）
- 公式：( \text{MAE} = \frac{1}{n}\sum_{i=1}^n |y_i - \hat{y}_i| )
- 特点：鲁棒性强，对异常值不敏感，但无法区分误差方向。
- 适用场景：数据噪声较多或需稳定评估的情况（如传感器数据预测）。
决定系数（R²）
- 公式：( R^2 = 1 - \frac{\sum (y_i - \hat{y}_i)^2}{\sum (y_i - \bar{y})^2} )
- 特点：衡量模型解释方差的比例，取值范围[0,1]，值越接近1越好。
- 适用场景：模型横向对比与拟合优度评估。

二、补充指标

均方根对数误差（RMSLE）
- 公式：( \text{RMSLE} = \sqrt{\frac{1}{n}\sum (\log(y_i+1) - \log(\hat{y}_i+1))^2} )
- 特点：对目标变量取对数后计算误差，缓解大范围值差异的影响。
- 适用场景：目标变量呈指数分布（如用户增长预测）。
调整R²（Adjusted R²）
- 公式：( \text{Adjusted } R^2 = 1 - \frac{(1-R^2)(n-1)}{n-p-1} )（p为特征数）
- 特点：惩罚多余特征，防止过拟合，更适用于多变量模型比较。
信息准则（AIC/BIC）
- 公式：( \text{AIC} = 2k - 2\ln(L) )，( \text{BIC} = k\ln(n) - 2\ln(L) )（k为参数数量，L为似然函数）
- 特点：衡量模型复杂度与拟合度的平衡，值越小模型越优。
- 适用场景：模型选择与参数调优。

三、模型诊断方法

残差分析
- 绘制残差（预测值-真实值）散点图，理想情况下应随机分布在0附近，无趋势或异方差性。
- 异常检测：若残差呈现漏斗形或U型，可能需处理异方差或非线性关系。
正态性检验
- 使用Q-Q图或Shapiro-Wilk检验，验证残差是否符合正态分布。
- 意义：许多回归算法假设误差服从正态分布，否则可能影响统计推断。
异方差性检验
- 通过Breusch-Pagan检验或残差图判断误差方差是否恒定。
- 处理方案：变量变换（如Box-Cox）或加权最小二乘法。

四、指标选择建议

场景	推荐指标	原因
异常值较多	MAE、Huber损失	减少大误差干扰
需直观误差单位	RMSE	与目标变量单位一致
模型对比	R²、调整R²	直接反映解释能力
高维数据或过拟合风险	AIC/BIC	平衡模型复杂度与拟合度
预测值跨度大（如销量）	RMSLE	缓解量级差异影响

五、注意事项

多指标综合评估：单一指标可能片面，结合MSE、MAE和R²可全面反映模型性能。
业务目标对齐：例如金融领域更关注高误差风险（适合MSE），而医疗领域需稳定性（适合MAE）。
数据预处理：标准化/归一化可提升指标可比性，尤其是涉及距离度量的算法（如线性回归）。

如需代码实现，可参考Scikit-learn的metrics模块（如r2_score、mean_squared_error）或可视化库（如Seaborn绘制残差图）。

3 平均绝对误差MAE

在这里插入图片描述

4 均方差MSE

在这里插入图片描述

5 logistic回归损失（二类）

在这里插入图片描述

6 logistic回归损失（多类）

在这里插入图片描述

Logistic回归的损失函数（交叉熵损失）是其模型优化的核心，通过衡量预测概率与真实标签的差异来调整参数。以下是详细解析：

1. 损失函数定义与推导

1.1 交叉熵损失（Cross-Entropy Loss）

公式：
$\mathcal{L}(w) = -\frac{1}{m} \sum_{i=1}^m \left[ y_i \log h_w(x_i) + (1 - y_i) \log (1 - h_w(x_i)) \right]$
- ( $hw(xi)=11+e−wTxih_w(x_i) = \frac{1}{1 + e^{-w^T x_i}}$ ) 是Sigmoid函数输出，表示预测概率。
- ( $yi∈{0,1}y_i \in \{0, 1\}$ ) 为真实标签。
意义：
交叉熵衡量预测分布与真实分布的差异，最小化交叉熵等价于最大化对数似然函数（极大似然估计）。

1.2 标签为{-1,1}时的等价形式

若标签 ( y_i \in {-1, 1} )，损失函数可改写为：
$\mathcal{L}(w) = \frac{1}{m} \sum_{i=1}^m \log\left(1 + e^{-y_i w^T x_i}\right)$
此形式与SVM的Hinge损失和感知机的对比更直观（见图表对比）。

2. 为何选择交叉熵而非均方误差（MSE）

对比维度	交叉熵损失	均方误差（MSE）
优化目标	直接优化概率分布的匹配度	优化预测值与标签的数值误差
梯度特性	梯度与误差成正比，更新稳定	梯度含Sigmoid导数，易饱和消失
凸性	凸函数，保证全局最优解	非凸，存在多个局部最优
异常值敏感度	对异常值鲁棒	对异常值敏感（平方放大效应）

3. 梯度下降优化与参数更新

3.1 梯度计算

对单个样本 $x_i, y_i)$ ，损失函数关于参数 $w_j$ 的梯度为：
$\frac{\partial \mathcal{L}}{\partial w_j} = \left( h_w(x_i) - y_i \right) x_{ij}$
推导过程：

计算Sigmoid函数的导数： $h_w'(x_i) = h_w(x_i)(1 - h_w(x_i))$ 。
链式法则求导后，简化得到梯度表达式。

3.2 参数更新规则

批量梯度下降的更新公式：
$\alpha \cdot \frac{1}{m} \sum_{i=1}^m \left( h_w(x_i) - y_i \right) x_i$ 其中 $α\alpha$ 为学习率，控制更新步长。

4. 正则化与过拟合控制

4.1 正则化项

L2正则化：
$\mathcal{L}(w) = -\frac{1}{m} \sum_{i=1}^m \left[ y_i \log h_w(x_i) + (1 - y_i) \log (1 - h_w(x_i)) \right] + \frac{\lambda}{2m} \|w\|^2$
通过惩罚大权重防止模型复杂度过高。
L1正则化：
$\mathcal{L}(w) = \text{交叉熵损失} + \frac{\lambda}{m} \|w\|_1$
适用于特征选择，稀疏化权重。

4.2 梯度更新调整

加入L2正则化后，梯度更新公式变为：
$w_j := w_j - \alpha \left( \frac{1}{m} \sum_{i=1}^m \left( h_w(x_i) - y_i \right) x_{ij} + \frac{\lambda}{m} w_j \right)$

5. 多分类扩展：Softmax回归

对于K分类问题，Logistic回归推广为Softmax回归：

概率模型：
$\frac{e^{w_k^T x}}{\sum_{j=1}^K e^{w_j^T x}}$
损失函数：
$\mathcal{L}(W) = -\frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \mathbb{I}(y_i=k) \log \frac{e^{w_k^T x_i}}{\sum_{j=1}^K e^{w_j^T x_i}}$
其中 $I(⋅)\mathbb{I}(\cdot)$ 为指示函数。

6. 实际应用中的关键点

特征标准化：加速梯度下降收敛，尤其是当特征量纲差异大时。
类别不平衡处理：
- 对少数类样本加权（如修改损失函数权重项）。
- 使用过采样（SMOTE）或欠采样。
学习率调整：
- 自适应学习率方法（如Adam）可避免手动调参。
模型诊断：
- 绘制学习曲线观察欠拟合/过拟合。
- 通过ROC-AUC评估分类阈值效果。

7. 与其他模型的对比

模型	损失函数	输出特性	适用场景
Logistic回归	交叉熵损失	概率输出，可解释性强	二分类、需概率解释的场景
SVM	Hinge损失	最大间隔分类，无概率	高维数据、小样本分类
感知机	误分类点惩罚	硬分类，无概率	线性可分简单任务