深度分析

这篇博客探讨了数据预处理中的缺失值处理方法,包括删除法、替换法(如均值替换)和插补法(如多重插补)。此外,文章还介绍了监督学习中的回归、分类和聚类算法,如线性回归、逻辑回归、K-means聚类、层次聚类以及距离度量。还涉及了支持向量机(SVM)、决策树、朴素贝叶斯和K近邻(KNN)等分类算法。主成分分析(PCA)作为降维技术也被提及,适用于高维数据的简化。关联规则和预测分析也是讨论的一部分。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 质控:
  • 插补:
    缺失值常用的几种处理方法:删除法替换法插补法
  1. 如果缺失值的比例很小,且不影响整体的数据结构,即缺失值类型是完全随机缺失时,可以考虑将缺失值删除。
    2.直接删除含有缺失值的行记录的代价和风险较大,故我们可以考虑将缺失值部分替换掉,如用均值去替换,即均值替换法,该方法根据变量的不同类型选择不同的替换,对数值型变量采用均值替换,对非数值型变量采用众数替换
  2. 常用的方法是插补法,随机插补的思想类似,利用非缺失数据的均值或者随机数来填补缺失值,下面我们详细介绍多重插补。

多重插补的主要思想是:利用蒙特卡洛模拟法(MCMC)将原始数据集插补成几个完整数据集,在每个新数据集中利用线性回归(lm)或广义线性回归(glm)等方法进行插补建模,再将这些完整的模型整合到一起,评价插补模型的优劣并返回完数据集。

  • 回归:
    回归和分类属于监督学习,聚类则属于非监督学习。线性回归,预测的是连续性的因变量值,而逻辑回归预测的是离散型。
  • 聚类:
    回归和分类属于监督学习,聚类则属于非监督学习。

对于监督学习而言,回归和分类是两类基本应用场景;对于非监督学习而言,则是聚类和降维。K-means属于聚类算法的一种,通过迭代将样本分为K个互不重叠的子集。
对于K-means聚类而言,首先要确定的第一个参数就是聚类个数K。具体的方法有以下两种,第一种是目的导向,根据先验知识或者研究目的,直接给定一个具体的K值,比如根据实验设计的分组数目定K值,根据样本的不同来源定K值等;第二种方法称之为Elbow,
适合没有任何先验的数据,通过比较多个K值的聚类结果,选取拐点值,图示如下

层次聚类顾名思义,是按照层次来进行聚类,其中不同的层次构成了树状结构的不同层级,叶子节点则对应真实的样本点

  1. 样本间距离

距离的衡量可以有多种方式,比如最常用的欧氏距离,对于凝聚法而言,首先计算样本间的距离矩阵,然后根据距离近的样本聚集在一起。

  1. cluster间距离

对于样本而言,其多个特征可以看做不同维度的数值,直接套用距离公式计算即可得到两个样本间的距离;对于cluster而言,每个cluster下面包含了多个样本,此时就需要采取特定的距离定量策略,常用的策略有以下3种

  1. single linkage, 将两组数据中距离最近的两个样本点的距离作为cluster之间的距离

  2. complete linkage,将两组数据中距离最远的两个样本点的距离作为cluster之间的距离

  3. average linkage,将两组数据中的样本两两求解距离,最后计算均值,作为两个cluster之间的距离

从定义可以看出,以上三种方法分别考虑了最小,最大和平均值,其中最小,最大都容易受到异常值点的干扰,而均值则计算量较大。

  • 分类:
    回归和分类属于监督学习,聚类则属于非监督学习。

SVM, 全称为support vector machines,
翻译过来就是支持向量机。该算法最常见的应用场景就是解决二分类问题,当然也可以用于回归和异常值检测。

决策树属于监督学习算法的一种,根据原始输入数据中的特征,构建一个树状模型来进行分类。比如探究早晨是否出去打网球的例子,

对于集成学习而言,常用的有bagging和boosting两种策略,在之前的文章中,介绍了bagging策略的经典算法-随机森林,本文介绍基于boosting策略的经典分类算法-Adaboost。

朴素贝叶斯:基于概率论的分类模型

KNN是一种分类算法,其全称为k-nearest neighbors,
所以也叫作K近邻算法。该算法是一种监督学习的算法,具体可以分为以下几个步骤

  1. 第一步,载入数据,因为是监督学习算法,所以要求输入数据中必须提供样本对应的分类信息

  2. 第二步,指定K值,为了避免平票,K值一般是奇数

  3. 第三步,对于待分类的样本点,计算该样本点与输入样本的距离矩阵,按照距离从小到大排序,选择K个最近的点

  4. 第四步,根据K个点的分类频率,确定频率最高的类别为该样本点的最终分类

  • 主成分:
  1. 主成分分析法是数据挖掘中常用的一种降维算法,其最主要的用途在于“降维”,通过析取主成分显出的最大的个别差异,也可以用来削减回归分析和聚类分析中变量的数目
  2. 在生物信息学的实际应用情况中,通常是得到了成百上千个基因的信息,这些基因相互之间会有影响,通过主成分分析后,得到有限的几个主成分就可以代表它们的基因了。也就是所谓的降维。
  3. 在生物信息学领域,比如我们测了1000个病人的2万个基因的表达矩阵,同时也有他们的健康状态信息。想得到基因表达与健康状态的某种关系。主成分分析可以选择解释度比较高的主成分对应的基因,可能就几十上百个而已,大幅度的降低广泛的基因检测成本。

步骤
step1:数据标准化(中心化)
step2:求相关系数矩阵
step3:计算特征值和特征向量
step4:崖低碎石图和累积贡献图
step5:主成分载荷
step6:主成分得分计算和图示

  • 关联:
  • 预测:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值