机器学习入门了解

最新推荐文章于 2022-09-05 22:49:12 发布

原创最新推荐文章于 2022-09-05 22:49:12 发布 · 388 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #数据挖掘 #数据分析 #人工智能

笔记专栏收录该内容

5 篇文章

订阅专栏

机器学习入门

1.机器学习的定义

Machine Learning(ML) is a scientific discipline that deals with the construction and study of algorithms that can learn from data.
机器学习是一门从数据中研究算法的科学学科。
机器学习直白来讲，是根据已有的数据，进行算法选择，并基于算法和数据构建模型，最终对未来进行预测;
备注：机器学习就是一个模拟人决策过程的一种程序结构

2.机器学习、人工智能和深度学习的关系

1.机器学习理性认识

以我们人类为例，【对于这样一个数据：1，2，4，8，16，（?），请问？应该是多少】，对于这样一个题，我们根据以往的经验，可以发现这个题的规律，并且可以计算出答案是32，如果这是生活中的一件事，今天是1，明天是2，后天是3…，我们根据经验是不是可以预测接下来某天是多少，那么和机器学习怎么关联呢，如下所示：
在这里插入图片描述
那么机器如何去做的呢：

不同的是我们以历史经验总结规律，二机器是以历史数据训练模型，这里的模型就是各种经典算法。

2.相互关系

深度学习是机器学习的子类；深度学习是基于传统的神经网络算法发展到多隐层的一种算法体现。
机器学习是人工智能的一个子类
在这里插入图片描述

3.机器学习基本概念和常用的应用场景

1.机器学习概念

美国卡内基梅隆大学（Carnegie Mellon University）机器学习研究领域的著名教授Tom Mitchell对机器学习的经典定义：
对于某给定的任务T，在合理的性能度量方案P的前提下，某计算机程序可以自主学习任务T的经验E；随着提供合适、优质、大量的经验E，该程序对于任务T的性能逐步提高。
其中重要的机器学习对象：
任务Task T，一个或多个、经验Experience E、度量性能Performance P
即：随着任务的不断执行，经验的累积会带来计算机性能的提升。
流程大致如图：
在这里插入图片描述
**算法(T)：**根据业务需要和数据特征选择的相关算法，也就是一个数学公式
**模型(E)：**基于数据和算法构建出来的模型
**评估/测试§：**对模型进行评估的策略

2.机器学习与人工智能

机器学习是人工智能的一个分支。我们使用计算机设计一个系统，使它能够根据提供的训练数据按照一定的方式来学习；随着训练次数的增加，该系统可以在性能上不断学习和改进；通过参数优化的学习模型，能够用于预测相关问题的输出。

3.机器学习所用到的数据与词语

在这里插入图片描述
拟合：构建的算法模型符合给定数据的特征

鲁棒性：也就是健壮性、稳健性、强健性,是系统的健壮性；当存在异常数据的时候，算法也会拟合数据
过拟合：算法太符合样本数据的特征，对于实际生产中的数据特征无法拟合
欠拟合：算法不太符合样本的数据特征

4.机器学习商业场景

个性化推荐：个性化指的是根据各种因素来改变用户体验和呈现给用户内容，这些因素可能包含用户的行为数据和外部因素；推荐常指系统向用户呈现一个用户可能感兴趣的物品列表。
精准营销：从用户群众中找出特定的要求的营销对象。
客户细分/用户画像系统：试图将用户群体分为不同的组，根据给定的用户特征进行客户分组。
预测建模及分析：根据已有的数据进行建模，并使用得到的模型预测未来。
在这里插入图片描述

4.机器学习、数据分析、数据挖掘的区别与联系

数据分析：数据分析是指用适当的统计分析方法对收集的大量数据进行分析，并提取有用的信息，以及形成结论，从而对数据进行详细的研究和概括过程。在实际工作中，数据分析可帮助人们做出判断；数据分析一般而言可以分为统计分析、探索性数据分析和验证性数据分析三大类。
数据挖掘：一般指从大量的数据中通过算法搜索隐藏于其中的信息的过程。通常通过统计、检索、机器学习、模式匹配等诸多方法来实现这个过程。
机器学习：是数据分析和数据挖掘的一种比较常用、比较好的手段。

5.机器学习分类

分类1

1.有监督学习
用已知某种或某些特性的样本作为训练集，以建立一个数学模型，再用已建立的模型来预测未知样本，此种方法被称为有监督学习，是最常用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务。
又分如下几个模型：
判别式模型(Discriminative Model)：直接对条件概率p(y|x)进行建模，常见判别模型有：Logistic回归、决策树、支持向量机SVM、k近邻、神经网络等；
生成式模型(Generative Model)：对联合分布概率p(x,y)进行建模，常见生成式模型有：隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等；
生成式模型更普适；判别式模型更直接，目标性更强
生成式模型关注数据是如何产生的，寻找的是数据分布模型；判别式模型关注的数据的差异性，寻找的是分类面
由生成式模型可以产生判别式模型，但是由判别式模式没法形成生成式模型
2.无监督学习
与监督学习相比，无监督学习的训练集中没有人为的标注的结果，在非监督的学习过程中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。
无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息，常见的算法有聚类、降维、文本处理(特征抽取)等。
无监督学习一般是作为有监督学习的前期数据处理，功能是从原始数据中抽取出必要的标签信息。
3.半监督学习
考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题，是有监督学习和无监督学习的结合
无监督学习试图学习或者提取数据背后的数据特征，或者从数据中抽取出重要的特征信息，常见的算法有聚类、降维、文本处理(特征抽取)等。
无监督学习一般是作为有监督学习的前期数据处理，功能是从原始数据中抽取出必要的标签信息。
主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价，提高学习机器性能具有非常重大的实际意义。
SSL的成立依赖于模型假设，主要分为三大类：平滑假设、聚类假设、流行假设；其中流行假设更具有普片性。
SSL类型的算法主要分为四大类：半监督分类、半监督回归、半监督聚类、半监督降维。
缺点：抗干扰能力弱，仅适合于实验室环境，其现实意义还没有体现出来；未来的发展主要是聚焦于新模型假设的产生。

分类2（根据数据）

分类
通过分类模型，将样本数据集中的样本映射到某个给定的类别中(在模型构建之前，类别信息已经确定了。)
聚类
通过聚类模型，将样本数据集中的样本分为几个类别，属于同一类别的样本相似性比较大
回归
反映了样本数据集中样本的属性值的特性，通过函数表达样本映射的关系来发现属性值之间的依赖关系
关联规则
获取隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现频率

常见模型

在这里插入图片描述

6.机器学习数据处理流程

1.数据收集

2.数据预处理

3.特征提取

4.模型构建（这里的模型就是我们需要学习的机器学习算法）

5.模型测试评估

6.投入使用(模型部署与整合)

7.迭代优化
整个流程所用到如下知识点：
1.数据清洗与转换
实际生产环境中机器学习比较耗时的一部分
大部分的机器学习模型所处理的都是特征，特征通常是输入变量所对应的可用于模型的数值表示
大部分情况下，收集得到的数据需要经过预处理后才能够为算法所使用，预处理的操作主要包括以下几个部分：
数据过滤
处理数据缺失
处理可能的异常、错误或者异常值
合并多个数据源数据
数据汇总
对数据进行初步的预处理，需要将其转换为一种适合机器学习模型的表示形式，对许多模型类型来说，这种表示就是包含数值数据的向量或者矩阵
将类别数据编码成为对应的数值表示(一般使用1-of-k\哑编码方法)
从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)
对特征进行正则化、标准化，以保证同一模型的不同输入变量的取值范围相同
数值数据转换为类别数据以减少变量的值，比如年龄分段
对数值数据进行转换，比如对数转换
对现有变量进行组合或转换以生成新特征(基于对数据以及对业务的理解)，比如平均数 (做虚拟变量)，需要不断尝试才可以确定具体使用什么虚拟变量。
词袋法：将文本当作一个无序的数据集合，文本特征可以采用文本中的词条/单词T进行体现，那么文本中出现的所有词条及其出现的次数/频率就可以体现文档的特征
TF-IDF: 词条的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降；也就是说词条在当前文本中出现的次数越多，表示该词条对当前文本的重要性越高，词条在所有文本(语料库/训练数据集)中出现的次数越少，说明这个词条对文本的重要性越高。TF(词频)指某个词条在文本中出现的次数，一般会将其进行归一化处理(该词条数量/该文档中所有词条数量)；IDF(逆向文件频率)指一个词条重要性的度量，一般计算方式为语料库中总文件数目除以包含该词语的文件数目，再将得到的商取对数得到。TF-IDF实际上是：TF * IDF

模型训练及测试

模型选择：对特定任务最优建模方法的选择或者对特定模型最佳参数的选择。
在训练数据集上运行模型(算法)并在测试数据集中测试效果，迭代进行数据模型的修改，这种方式被称为交叉验证(将数据分为训练集和测试集，使用训练集构建模型，并使用测试集评估模型提供修改建议)
模型的选择会尽可能多的选择算法进行执行，并比较执行结果
模型的测试一般以下几个方面来进行比较，在分类算法中常见的指标分别是准确率/召回率/精准率/F值(F1指标)
准确率(Accuracy)=提取出的正确样本数/总样本数
召回率(Recall)=正确的正例样本数/样本中的正例样本数——覆盖率
精准率(Precision)=正确的正例样本数/预测为正例的样本数
F值=PrecisionRecall2 / (Precision+Recall) (即F值为正确率和召回率的调和平均值)
在这里插入图片描述

模型评估

1.分类模型评估：

在这里插入图片描述 ROC（Receiver Operating Characteristic）最初源于20世纪70年代的信号检测理论，描述的是分类混淆矩阵中FPR-TPR两个量之间的相对变化情况，ROC曲线的纵轴是“真正例率”（True Positive Rate 简称TPR），横轴是“假正例率” （False Positive Rate 简称FPR）。
如果二元分类器输出的是对正样本的一个分类概率值，当取不同阈值时会得到不同的混淆矩阵，对应于ROC曲线上的一个点。那么ROC曲线就反映了FPR与TPR之间权衡的情况，通俗地来说，即在TPR随着FPR递增的情况下，谁增长得更快，快多少的问题。TPR增长得越快，曲线越往上屈，AUC就越大，反映了模型的分类性能就越好。当正负样本不平衡时，这种模型评价方式比起一般的精确度评价方式的好处尤其显著。

AUC（Area Under Curve）被定义为ROC曲线下的面积，显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方，所以AUC的取值范围在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好，而AUC作为数值可以直观的评价分类器的好坏，值越大越好。
AUC = 1，是完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器。
0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。
AUC = 0.5，跟随机猜测一样（例：丢铜板），模型没有预测价值。
AUC < 0.5，比随机猜测还差；但只要总是反预测而行，就优于随机猜测。
AUC的值越大表达模型越好

2.回归模型评估

explained_varicance_score：可解释方差的回归评分函数
mean_absolute_error：平均绝对误差（MAE）
mean_squared_error：平均平方误差(MSE)

3.代码中掉包直接用来评估

模型部署，整合，监控，反馈

当模型构建好后，将训练好的模型进行部署
方式一：直接使用训练好的模型对数据做一个预测，然后将预测结果保存数据库中。
方式二：直接将模型持久化为磁盘文件的形式，在需要的代码处从磁盘中恢复模型对象，然后使用恢复的模型对象对数据做一个预测。
方式三：直接将模型参数保存到数据库中，然后在需要的代码处直接从数据库把模型参数加载到代码中，然后根据模型算法原理使用模型参数对数据做一个预测。
模型需要周期性的进行修改、调优：
一个月、一周
当模型一旦投入到实际生产环境中，模型的效果监控是非常重要的，往往需要关注业务效果和用户体验，所以有时候会进行A/B测试
模型需要对用户的反馈进行响应操作，即进行模型修改，但是要注意异常反馈信息对模型的影响，故需要进行必要的数据预处理操作