前言
机器学习离不开数据、和模型算法,常用的套路包含数据预处理、模型学习、模型评估、样本预测几个步骤。
- 数据预处理:从原始raw数据,经过(特征处理+幅度缩放、特征选择、维度约减、采样),输出测试集和训练集;
- 模型学习:模型选择、交叉验证、结果评估、超参选择;
- 模型评估:选择符合场景的评估准则
- 样本预测:新的输入数据预测
机器学习分类
-
监督学习(Supervised Learning):训练集有目标label。监督学习可以进一步分为回归(Regression)和分类(Classification)问题。回归任务预测连续值输出(如房价预测),而分类任务则预测离散的类别标签(如垃圾邮件识别)。
-
无监督学习(Unsupervised Learning):与监督学习不同,无监督学习的数据没有明确的标签或结果。它的目标是发现数据中的结构、模式或者将数据分为不同的群组(聚类)。常见的无监督学习方法包括聚类(Clustering)、降维(Dimensionality Reduction,如PCA、t-SNE)等。
-
半监督学习(Semi-supervised Learning):介于监督学习和无监督学习之间,它利用大量的未标记数据和少量的标记数据来进行学习。目的是利用未标记数据提供的额外信息来提高学习模型的性能,尤其是在标记数据稀缺的情况下。
-
强化学习(Reinforcement Learning):算法(智能体)通过与环境交互来学习如何采取行动,以最大化某种累积奖励。强化学习的核心在于学习策略,即在给定状态下选择行动的规则,以达到长期奖励最大化的最终目标。常见的应用包括游戏AI、机器人导航等。
-
迁移学习(Transfer Learning):这是一种利用从一个任务中学到的知识来帮助完成另一个相关但不完全相同的任务的方法。迁移学习可以减少对大量标注数据的需求,加速新任务的学习过程。特别是在深度学习领域,预训练的模型(如ImageNet上的CNN模型)经常被用作其他视觉任务的起点。
-
元学习(Meta-Learning):也称为“学习如何学习”,旨在使机器学习模型能够从以前的学习经验中快速适应新任务。元学习的关键思想是设计模型架构或训练程序,使得模型能够基于少数几个样本快速调整其参数,适用于快速变化的任务环境或小样本学习场景。
1. 监督学习
1.1回归模型
回归分析是用来预测一个或多个变量(称为自变量、解释变量或特征)如何影响另一个变量(称为因变量、响应变量或目标变量)的方法。根据模型的形式,回归模型可以大致分为两大类:线性模型和非线性模型。
1.1.1 线性回归模型
线性模型的数学推导是
其中,是求解线性拟合。
L1正则化
-
定义:L1正则化是通过向损失函数添加权重参数的绝对值之和来限制模型复杂度。具体形式为:
![]()
L2正则化
-
定义:L2正则化是通过向损失函数添加权重参数的平方和来约束模型的复杂性。具体形式为:


最低0.47元/天 解锁文章
1806

被折叠的 条评论
为什么被折叠?



