机器学习的分类方式多种多样,以下是几种常见的分类方式及其核心要点:
按学习方式分类
监督学习(Supervised Learning)
- 定义:使用带有标签的数据(输入-输出对)训练模型,模型学习输入到输出的映射关系。
- 典型任务:分类(如识别猫狗)、回归(如预测房价)。
- 算法举例:线性回归、决策树、支持向量机(SVM)、神经网络。
无监督学习(Unsupervised Learning)
- 定义:数据无标签,模型自行发现数据中的隐藏结构或模式。
- 典型任务:聚类(如客户分群)、降维(如PCA)、关联规则挖掘(如购物篮分析)。
- 算法举例:K-Means、主成分分析(PCA)、Apriori。
半监督学习(Semi-Supervised Learning)
- 定义:结合少量带标签数据和大量无标签数据训练,解决标注成本高的问题。
- 应用场景:医学图像分析(标注数据少,未标注数据多)。
强化学习(Reinforcement Learning)
- 定义:智能体通过与环境交互,根据奖励信号学习最优策略。
- 典型应用:游戏AI(如AlphaGo)、机器人控制、自动驾驶。
- 算法举例:Q-Learning、深度强化学习(DQN)。
按模型类型分类
生成模型(Generative Model)
- 目标:学习数据的联合概率分布 𝑃 ( 𝑋 , 𝑌 ) P(X,Y),可生成新样本。
- 例子:朴素贝叶斯、生成对抗网络(GAN)、隐马尔可夫模型(HMM)。
判别模型(Discriminative Model)
- 目标:直接学习条件概率 𝑃 ( 𝑌 ∣ 𝑋 ) P(Y∣X) 或决策边界,专注于分类。
- 例子:逻辑回归、支持向量机(SVM)、卷积神经网络(CNN)。
按任务类型分类
分类(Classification)
- 目标:预测离散类别(如垃圾邮件检测)。
- 算法:逻辑回归、随机森林、神经网络。
回归(Regression)
- 目标:预测连续值(如股票价格预测)。
- 算法:线性回归、梯度提升树(GBDT)。
聚类(Clustering)
- 目标:将数据分组(如用户画像分群)。
- 算法:K-Means、DBSCAN、层次聚类。
推荐系统(Recommendation)
- 目标:预测用户偏好(如电影推荐)。
- 算法:协同过滤、矩阵分解(如SVD)。
按学习方法分类
批量学习(Batch Learning)
特点:一次性用全量数据训练模型,适用于静态数据场景。
在线学习(Online Learning)
特点:数据逐步输入,模型动态更新(如实时广告点击预测)。
迁移学习(Transfer Learning)
特点:将已学知识迁移到新任务(如用ImageNet预训练模型做医学图像分类)。
集成学习(Ensemble Learning)
特点:结合多个弱模型提升性能(如随机森林、XGBoost)。
按模型复杂度分类
参数模型
- 特点:假设数据分布形式(如线性回归假设线性关系),参数固定。
- 例子:线性模型、逻辑回归。
非参数模型
特点:不假设数据分布,模型复杂度随数据量增长(如KNN、决策树)。
其他重要分类
自监督学习(Self-Supervised Learning)
特点:利用数据自身构造监督信号(如BERT通过掩码预测学习)。
小样本学习(Few-Shot Learning)
特点:用极少量样本训练模型(如Meta-Learning)。
如何选择分类方式?
- 数据标签:有标签 → 监督学习;无标签 → 无监督/自监督。
- 任务目标:预测值连续 → 回归;离散 → 分类;发现结构 → 聚类。
- 数据量级:小样本 → 迁移学习/小样本学习;动态数据 → 在线学习。
通过组合不同分类方式,可灵活应对实际问题(如用生成模型做半监督分类)。