分类 vs 回归：监督学习的两大核心任务全解析

最新推荐文章于 2025-11-25 12:03:11 发布

原创最新推荐文章于 2025-11-25 12:03:11 发布 · 662 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #机器学习

学习记录同时被 2 个专栏收录

16 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

在机器学习的世界里，没有哪个问题比“这是分类还是回归？”更基础，却也更容易被误解。

我们做过泰坦尼克号生存预测，也训练过加州房价模型。调参时觉得差不多？但它们的本质完全不同。

今天，我们就用这两个经典项目为引子，带你穿透表象，真正理解：监督学习的两大核心任务——分类（Classification）与回归（Regression）之间的根本差异。

一、起点：任务类型由“预测目标”决定

🔍 判断是分类还是回归，关键不在于你用了什么模型，而在于你要预测的是什么。

✅ 泰坦尼克号：预测离散结果 → 分类任务

目标：根据乘客特征（年龄、性别、舱位等），判断是否生还。
输出：只有两个可能值 —— 生存（1）或死亡（0），属于典型的二分类问题。
模型输出：通常是概率（如 P(生存)=0.87），再通过阈值（如 0.5）转化为最终类别标签。
同类场景：垃圾邮件识别、图像分类、疾病诊断。

🎯 关键词：类别、标签、是非判断

✅ 加州房价预测：预测连续数值 → 回归任务

目标：基于房屋特征（面积、房间数、地理位置等），估算具体价格。
输出：一个实数，比如 327,500或327,500或412,890 —— 可以无限细分的连续值。
无明确边界：不存在“第3类房价”，而是平滑变化的数值空间。
同类场景：气温预测、销售额预估、股票走势建模。

🎯 关键词：数值、大小、精确度

二、六大核心区别一览表

对比维度	分类任务（泰坦尼克）	回归任务（加州房价）
1. 输出类型	离散的类别标签（如 0/1、A/B/C）	连续的数值（如 30 万、42.5 万、120.3 万）
2. 核心目标	区分不同类别的 “边界”	拟合特征与数值之间的 “趋势关系”
3. 损失函数	关注 “类别判断的错误率”	关注 “预测值与真实值的误差大小”
4. 评价指标	准确率（Accuracy）、F1 分数、AUC 等	均方误差（MSE）、平均绝对误差（MAE）等
5. 模型逻辑	学习 “哪些特征能区分类别”（如 “女性更易生存”）	学习 “特征如何影响数值”（如 “每多 1 个卧室，房价平均涨 5 万”）
6. 数据预处理	缩放影响不大（树模型几乎不受影响；但 KNN、SVM、逻辑回归、神经网络等模型推荐缩放）	几乎必需缩放（避免大数值特征主导，保证模型有效学习）

三、深入剖析：为什么损失函数和评价指标如此不同？

1️⃣ 损失函数的设计哲学

➤ 分类：关注“判错代价”——交叉熵损失（Cross-Entropy）

$\mathcal{L} = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat{y}_i) + (1 - y_i)\log(1 - \hat{y}_i) \right]$

当真实标签为 1，但模型预测接近 0 时，损失急剧上升。
对概率置信度敏感，鼓励模型做出“有把握”的判断。

💡 相比之下，若用 MSE 做分类损失，它对概率细微变化反应迟钝，收敛效率低。

➤ 回归：关注“误差大小”——均方误差（MSE）

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_{\text{pred},i} - y_{\text{true},i})^2$

放大较大误差的影响（平方项），迫使模型优先修正严重偏差。
实际中常用其开根形式：RMSE（Root Mean Squared Error），单位与原数据一致，解释性强。

⚠️ 注意：MSE 对异常值敏感；若数据含较多噪声或极端值，可改用 MAE（平均绝对误差）。

2️⃣ 评价指标的选择逻辑

任务类型	推荐指标	含义
分类	Accuracy、Precision & Recall、F1-Score、AUC-ROC	衡量 “类别预测的正确性”： 1. Accuracy 适合数据平衡场景（如两类样本比例接近），直接计算 “整体正确率”； 2. Precision、Recall、F1-Score、AUC-ROC 适合数据不平衡场景（如少数类样本关键），聚焦 “少数类的预测表现”，避免 Accuracy 的误导。
回归	RMSE、MAE、R²	衡量 “预测值与真实值的误差及拟合效果”： 1. RMSE（均方根误差）：对大误差更敏感，适合需规避极端误差的场景； 2. MAE（平均绝对误差）：对异常值更稳健（不受极端值影响）； 3. R²：衡量 “模型解释真实值变异的比例”（0≤R²≤1，越接近 1 拟合效果越好），可跨任务对比模型性能。

四、常见误区澄清：别让模型名字骗了你！

模型名称	实际用途	说明
逻辑回归（Logistic Regression）	✅ 分类	使用 sigmoid 函数将线性输出映射为概率，本质是分类模型
线性回归（Linear Regression）	✅ 回归<br>⚠️ 可用于分类（需后处理）	若人为设定阈值（如房价 > 50万 ⇒ 高档房），也可做简单分类
决策树 / 随机森林	✅ 两者皆可	树分裂机制相同，叶子节点输出类别（分类）或均值（回归）即可切换任务

🔥 再强调一遍：

任务类型由目标变量（Target Variable）决定，而非模型名称！

五、实战提醒：特征缩放的影响不容忽视！

在真实项目中，数据预处理直接影响模型表现。其中最易被忽略的就是——特征缩放（Feature Scaling）。

📉 回归任务：强烈建议缩放！

原因：回归损失直接依赖数值误差。若特征量纲悬殊（如面积=100，收入=100,000），梯度下降会偏向大尺度特征，导致收敛缓慢甚至失败。
推荐方法：
- 标准化（Standardization）： $z = \frac{x - \mu}{\sigma}$
- 归一化（Normalization）： $x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}}$

✅ 适用模型：线性回归、岭回归、Lasso、神经网络、KNN、SVM

📊 分类任务：看模型类型而定！

模型类型	是否需要缩放？	原因
树模型（决策树、随机森林、XGBoost）	❌ 不需要	分裂基于特征排序，不受量纲影响
距离/概率模（KNN、SVM、逻辑回归、神经网络）	✅ 强烈建议	距离计算或梯度优化受量纲干扰严重

六、进阶思考：分类与回归可以共存吗？

当然可以！现实问题往往更复杂，二者常结合使用：

场景	方法组合
房价预测 → 区间划分	先回归出具体价格，再划分为“低价/中价/高价”区间（后处理分类）
用户行为分析	回归预测消费金额 + 分类预测是否流失
多任务学习	一个模型同时输出类别（是否点击）和数值（停留时长）

💡 提示：有时将回归问题离散化成分类（如预测年龄段而非年龄），可降低噪声影响，提升鲁棒性。