零基础-机器学习概述

参考:【绝对干货】机器学习模型训练全流程! - 知乎 (zhihu.com)

人工智能导论(6)——机器学习(Machine Learning)_机器学习 人工智能导论-优快云博客

1、定义

机器学习是一门从数据中研究算法的多领域交叉学科,研究计算机如何模拟或实现人类的学习行为,根据已有的数据或以往的经验进行算法选择、构建模型,预测新模型,并重新组织已有的知识结构使之不断改进自身的性能。

  • 机器:指计算机

  • 学习:

    1)学习是一个有特定目的的知识获取和能力增长过程——目的:回归、分类、聚类、降维、密度估计、排序

    2)学习的内在行为是获得知识、积累经验、发现规律等——后续可将该规律应用到新的数据集

    3)学习的外部表现改进性能、适应环境、实现自我完善等。

2、流程

  • 建立模型:设计计算机可以自动“学习”的算法
  • 训练:用数据训练算法模型(讲人话就是从数据中分析规律)
  • 预测:用训练后的算法完成任务(根据找出的规律为未知数据进行分类和预测)

3、一些名词概念

1)数据集

数据集是构建机器学习模型的起点。本质上就是一个M×N矩阵,其中M代表列(特征),N代表行(样本)

2)监督学习和非监督学习

监督学习:用于监督学习的数据集(可以执行回归或分类)将同时包含X和Y。建立输入X和输出Y变量之间的数学(映射)关系。这样的X、Y对构成了用于建立模型的标签数据,以便学习如何从输入中预测输出。

非监督学习:用于无监督学习的数据集将只有X。是一种只利用输入X变量的机器学习任务。这种 X 变量是未标记的数据,学习算法在建模时使用的是数据的固有结构。

3)超参数调优

在机器学习的众多算法中,不同的算法有各自的参数,这些参数直接影响学习过程和性能,因此需要进行超参数调优(也称模型调整)。

我们以随机森林为例。在使用randomForest R包时,通常会对两个常见的超参数进行优化,其中包括mtry和ntree参数(这对应于scikit-learnPython库中RandomForestClassifier()和RandomForestRegressor()函数中的nestimators和maxfeatures)。mtry(maxfeatures)代表在每次分裂时作为候选变量随机采样的变量数量,而ntree(nestimators)代表要生长的树的数量。

4、完整流程

1)探索性数据分析(EDA)

EDA:Exploratory Data Analysis,就是通过了解数据集内部的关联,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型。

三大EDA方法:

  • 描述性统计:平均数、中位数、模式、标准差
  • 数据可视化:
    • 热力图——辨别特征内部相关性
    • 箱形图——可视化群体差异
    • 散点图——可视化特征之间的相关性
    • 主成分分析——可视化数据集中集中呈现的聚类分布
  • 数据整形:对数据进行透视、分组、过滤等。

2)数据预处理

指对数据进行各种检查和审查的过程,以纠正缺失值、拼写错误等。因为数据的质量对生成模型的质量产生很大的影响。一般来说,数据预处理可以轻松地占到数据科学项目所花费时间的80%,而实际的模型建立阶段和后续的模型分析仅占到剩余的20%。

3)数据分割

主要指将数据分为:测试集、验证集。但有不同的分法。

  1. 训练—测试集分割

    在机器学习模型开发过程中,希望训练好的模型能在新的、未见过的数据上表现良好。为了模拟新的、未见过的数据,对可用数据集进行数据分割,一般是80%作为训练集、20%作为测试集,不过具体占比可以根据自己需求进行分割。

    说人话就是一部分数据用来模型建立,另一部分用来测试模型的性能,然后可以根据模型在测试集上的效果来选择最佳的模型(算法)。

  2. 训练—验证—测试集分割

    即将数据集分成三部分:a)训练集,b)验证集,c)测试集

    此处,验证集充当了上一个分割当中测试集的作用,此处的测试集不参与模型的建立和准备,单纯可以真正充当新的、未知的数据。

  3. 交叉验证:CV:Cross Validation

    通常使用N倍交叉验证,将数据集分为N个折(即分成N个数据集),其中一个折被留作测试数据,而其余的折被留作建立模型的训练数据。

    此处交叉验证中的交叉是指N个折中每一个折都会被作为测试集,其余折作为训练集,然后循环,直到所有的则都被作为测试数据进行过模型训练,故通过数据集的组合建立的N个模型,这N个模型中都包含相关的性能指标,最后计算出这N个模型的平均性能(度量值)。

4)算法选择

机器学习的算法有很多,我们可以对其进行分类。具体的常见算法可查看上述思维导图。

  1. 按学习任务分

    最常见的三大任务:回归、分类、聚类

    • 回归:利用数据统计原理,对大量统计数据进行数学处理,确定因变量与某些自变量的相关关系,建立一个相关性较好地回归方程(函数表达式)
    • 分类:顾名思义,就是对数据进行分类
    • 聚类:顾名思义,对未知类别的样本按照一定规则进行划分,把相似度高的样本聚在同一个类簇中
    • 降维:采用某种映射方法,将原高维空间的数据点映射到低维度空间中,用相对低维的向量表示原始高维度的特征。说人话就是减少特征数据,让更少的数据去表示完整的特征,减少数据量。
    • 密度估计:给定样本集合求解随机变量的分布密度函数问题(求分布)
    • 排序学习:通过机器学习方法学习一个分值函数对待排序的候选进行打分,再根据分值的高低确定序关系。
  2. 按学习方式分

分为有监督学习、无监督学习、强化学习

  • 有监督学习:数据集中包含输出的数据(因变量)
  • 无监督学习:数据集中不确定哪个是因变量
  • 强化学习:通过模拟大脑神经细胞中的奖励信号来改善行为的机器学习方法

4)参数调优

机器学习算法中的参数,直接影响学习过程和预测性能。不同的算法有不同的参数需要调优。

5)特征选择

从大量特征中选择一个特征自己的过程,除了实现高精度的模型外,机器学习模型构建最重要的一个方面是获得可操作的见解。我理解是为了表征数据的训练效果所展示的某些特征数据。

6)性能指标

为了体现模型的表现好坏,使用一些性能指标来表征,一些常见的评估分类性能的指标包括:

  • 准确率(Ac)
  • 灵敏度(Sn)
  • 特异性(Sp)
  • 马太相关系数(MCC)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值