- 质控:
- 插补:
缺失值
常用的几种处理方法:删除法
,替换法
和插补法
。
- 如果缺失值的比例很小,且不影响整体的数据结构,即缺失值类型是完全随机缺失时,可以考虑将缺失值删除。
2.直接删除含有缺失值的行记录的代价和风险较大,故我们可以考虑将缺失值部分替换掉,如用均值去替换,即均值替换法,该方法根据变量的不同类型选择不同的替换,对数值型变量采用均值替换
,对非数值型变量采用众数替换
。 - 常用的方法是插补法,随机插补的思想类似,利用
非缺失数据的均值
或者随机数
来填补缺失值,下面我们详细介绍多重插补。
多重插补的主要思想是:利用
蒙特卡洛模拟法
(MCMC)将原始数据集插补成几个完整数据集,在每个新数据集中利用线性回归
(lm)或广义线性回归
(glm)等方法进行插补建模
,再将这些完整的模型整合
到一起,评价插补模型的优劣
并返回完数据集。
- 回归:
回归和分类属于监督学习,聚类则属于非监督学习。线性回归,预测的是连续性的因变量值,而逻辑回归预测的是离散型。 - 聚类:
回归和分类属于监督学习,聚类则属于非监督学习。
对于监督学习而言,回归和分类是两类基本应用场景;对于非监督学习而言,则是聚类和降维。K-means属于聚类算法的一种,通过迭代将样本分为K个互不重叠的子集。
对于K-means聚类而言,首先要确定的第一个参数就是聚类个数K。具体的方法有以下两种,第一种是目的导向,根据先验知识或者研究目的,直接给定一个具体的K值,比如根据实验设计的分组数目定K值,根据样本的不同来源定K值等;第二种方法称之为Elbow,
适合没有任何先验的数据,通过比较多个K值的聚类结果,选取拐点值,图示如下
层次聚类顾名思义,是按照层次来进行聚类,其中不同的层次构成了树状结构的不同层级,叶子节点则对应真实的样本点
- 样本间距离
距离的衡量可以有多种方式,比如最常用的欧氏距离,对于凝聚法而言,首先计算样本间的距离矩阵,然后根据距离近的样本聚集在一起。
- cluster间距离
对于样本而言,其多个特征可以看做不同维度的数值,直接套用距离公式计算即可得到两个样本间的距离;对于cluster而言,每个cluster下面包含了多个样本,此时就需要采取特定的距离定量策略,常用的策略有以下3种
single linkage, 将两组数据中距离最近的两个样本点的距离作为cluster之间的距离
complete linkage,将两组数据中距离最远的两个样本点的距离作为cluster之间的距离
average linkage,将两组数据中的样本两两求解距离,最后计算均值,作为两个cluster之间的距离
从定义可以看出,以上三种方法分别考虑了最小,最大和平均值,其中最小,最大都容易受到异常值点的干扰,而均值则计算量较大。
- 分类:
回归和分类属于监督学习,聚类则属于非监督学习。
SVM, 全称为support vector machines,
翻译过来就是支持向量机。该算法最常见的应用场景就是解决二分类问题,当然也可以用于回归和异常值检测。
决策树属于监督学习算法的一种,根据原始输入数据中的特征,构建一个树状模型来进行分类。比如探究早晨是否出去打网球的例子,
对于集成学习而言,常用的有bagging和boosting两种策略,在之前的文章中,介绍了bagging策略的经典算法-随机森林,本文介绍基于boosting策略的经典分类算法-Adaboost。
朴素贝叶斯:基于概率论的分类模型
KNN是一种分类算法,其全称为k-nearest neighbors,
所以也叫作K近邻算法。该算法是一种监督学习的算法,具体可以分为以下几个步骤
第一步,载入数据,因为是监督学习算法,所以要求输入数据中必须提供样本对应的分类信息
第二步,指定K值,为了避免平票,K值一般是奇数
第三步,对于待分类的样本点,计算该样本点与输入样本的距离矩阵,按照距离从小到大排序,选择K个最近的点
第四步,根据K个点的分类频率,确定频率最高的类别为该样本点的最终分类
- 主成分:
- 主成分分析法是数据挖掘中常用的一种降维算法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目
- 在生物信息学的实际应用情况中,通常是得到了成百上千个基因的信息,这些基因相互之间会有影响,通过主成分分析后,得到有限的几个主成分就可以代表它们的基因了。也就是所谓的降维。
- 在生物信息学领域,比如我们测了1000个病人的2万个基因的表达矩阵,同时也有他们的健康状态信息。想得到基因表达与健康状态的某种关系。
主成分分析可以选择解释度比较高的主成分对应的基因,可能就几十上百个而已,大幅度的降低广泛的基因检测成本。
步骤:
step1:数据标准化(中心化)
step2:求相关系数矩阵
step3:计算特征值和特征向量
step4:崖低碎石图和累积贡献图
step5:主成分载荷
step6:主成分得分计算和图示
- 关联:
- 预测: