深度分析-优快云博客

本文链接：https://blog.youkuaiyun.com/geekfocus/article/details/115261753

这篇博客探讨了数据预处理中的缺失值处理方法，包括删除法、替换法（如均值替换）和插补法（如多重插补）。此外，文章还介绍了监督学习中的回归、分类和聚类算法，如线性回归、逻辑回归、K-means聚类、层次聚类以及距离度量。还涉及了支持向量机（SVM）、决策树、朴素贝叶斯和K近邻（KNN）等分类算法。主成分分析（PCA）作为降维技术也被提及，适用于高维数据的简化。关联规则和预测分析也是讨论的一部分。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

质控：
插补：
缺失值常用的几种处理方法：删除法，替换法和插补法。

如果缺失值的比例很小，且不影响整体的数据结构，即缺失值类型是完全随机缺失时，可以考虑将缺失值删除。
2.直接删除含有缺失值的行记录的代价和风险较大，故我们可以考虑将缺失值部分替换掉，如用均值去替换，即均值替换法，该方法根据变量的不同类型选择不同的替换，对数值型变量采用均值替换，对非数值型变量采用众数替换。
常用的方法是插补法，随机插补的思想类似，利用非缺失数据的均值或者随机数来填补缺失值，下面我们详细介绍多重插补。

多重插补的主要思想是:利用蒙特卡洛模拟法(MCMC)将原始数据集插补成几个完整数据集，在每个新数据集中利用线性回归(lm)或广义线性回归(glm)等方法进行插补建模，再将这些完整的模型整合到一起，评价插补模型的优劣并返回完数据集。

回归：
回归和分类属于监督学习，聚类则属于非监督学习。线性回归，预测的是连续性的因变量值，而逻辑回归预测的是离散型。
聚类：
回归和分类属于监督学习，聚类则属于非监督学习。

对于监督学习而言，回归和分类是两类基本应用场景；对于非监督学习而言，则是聚类和降维。K-means属于聚类算法的一种，通过迭代将样本分为K个互不重叠的子集。
对于K-means聚类而言，首先要确定的第一个参数就是聚类个数K。具体的方法有以下两种，第一种是目的导向，根据先验知识或者研究目的，直接给定一个具体的K值，比如根据实验设计的分组数目定K值，根据样本的不同来源定K值等；第二种方法称之为Elbow,
适合没有任何先验的数据，通过比较多个K值的聚类结果，选取拐点值，图示如下

层次聚类顾名思义，是按照层次来进行聚类，其中不同的层次构成了树状结构的不同层级，叶子节点则对应真实的样本点

样本间距离

距离的衡量可以有多种方式，比如最常用的欧氏距离，对于凝聚法而言，首先计算样本间的距离矩阵，然后根据距离近的样本聚集在一起。

cluster间距离

对于样本而言，其多个特征可以看做不同维度的数值，直接套用距离公式计算即可得到两个样本间的距离；对于cluster而言，每个cluster下面包含了多个样本，此时就需要采取特定的距离定量策略，常用的策略有以下3种

single linkage, 将两组数据中距离最近的两个样本点的距离作为cluster之间的距离

complete linkage，将两组数据中距离最远的两个样本点的距离作为cluster之间的距离

average linkage，将两组数据中的样本两两求解距离，最后计算均值，作为两个cluster之间的距离

从定义可以看出，以上三种方法分别考虑了最小，最大和平均值，其中最小，最大都容易受到异常值点的干扰，而均值则计算量较大。

分类：
回归和分类属于监督学习，聚类则属于非监督学习。

SVM, 全称为support vector machines,
翻译过来就是支持向量机。该算法最常见的应用场景就是解决二分类问题，当然也可以用于回归和异常值检测。

决策树属于监督学习算法的一种，根据原始输入数据中的特征，构建一个树状模型来进行分类。比如探究早晨是否出去打网球的例子，

对于集成学习而言，常用的有bagging和boosting两种策略，在之前的文章中，介绍了bagging策略的经典算法-随机森林，本文介绍基于boosting策略的经典分类算法-Adaboost。

朴素贝叶斯：基于概率论的分类模型

KNN是一种分类算法，其全称为k-nearest neighbors,
所以也叫作K近邻算法。该算法是一种监督学习的算法，具体可以分为以下几个步骤

第一步，载入数据，因为是监督学习算法，所以要求输入数据中必须提供样本对应的分类信息

第二步，指定K值，为了避免平票，K值一般是奇数

第三步，对于待分类的样本点，计算该样本点与输入样本的距离矩阵，按照距离从小到大排序，选择K个最近的点

第四步，根据K个点的分类频率，确定频率最高的类别为该样本点的最终分类

主成分：

主成分分析法是数据挖掘中常用的一种降维算法,其最主要的用途在于“降维”，通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目
在生物信息学的实际应用情况中，通常是得到了成百上千个基因的信息，这些基因相互之间会有影响，通过主成分分析后，得到有限的几个主成分就可以代表它们的基因了。也就是所谓的降维。
在生物信息学领域，比如我们测了1000个病人的2万个基因的表达矩阵，同时也有他们的健康状态信息。想得到基因表达与健康状态的某种关系。主成分分析可以选择解释度比较高的主成分对应的基因，可能就几十上百个而已，大幅度的降低广泛的基因检测成本。

步骤：
step1:数据标准化(中心化)
step2:求相关系数矩阵
step3:计算特征值和特征向量
step4:崖低碎石图和累积贡献图
step5:主成分载荷
step6:主成分得分计算和图示