生物统计学(biostatistics)笔记-6.Clustering

目录

机器学习分类

基础知识

1、个体相似性的衡量

2、群体相似性的衡量

3、偏差-方差均衡

4、MSE(mean square error)均方误差,测量预测精度

5、Overfitting的解决方式

6、分类器的精确度accuracy

Clustering-典型的无监督学习

1、分层聚类:Hierarchical Clustering

2、模型聚类

3、选择聚类的类别个数:选择AIC和BIC值最小的​编辑​编辑

4、工具

Classifier

1、Classification and Prediction-监督学习

2、聚合分类器Aggregating classifiers

3、KNN算法

3.1 步骤

3.2 *K-means和KNN的区别

4、特征提取

4.1 两种方法:

4.2 LASSO:一种降维方法(逐步回归)​编辑​编辑

4.3 Ridge Regression岭回归​编辑​编辑

应用-基因表达和评估

1、生物背景

2、类别比较

2.1 control and test的基因上下调

2.2 Multiple Comparisons

3、基因富集分析Gene Set Enrichment Analysis (GSEA)

考试重点

1、概念与计算:FPKM(RPKM)、四类值衡量分类器精确度、ROC

2、了解


机器学习分类

  • 监督学习:主要是预测,输出量y连续时称为回归,y离散时称为分类。
  • 无监督学习e.g.聚类
  • 强化学习:是对行为进行奖赏或者惩罚,通过自我学习,争取获得更多的奖赏而不是惩罚。

基础知识

1、个体相似性的衡量

  • Pearson Correlation
  • Euclidean Distance
  • Cosine Correlation
  • Fourier Transformation

2、群体相似性的衡量

  • Single linkage
  • Complete linkage
  •  Average linkage
  • Average group linkage

3、偏差-方差均衡

  • 偏差(Bias):是指模型的预测值与真实值之间的差异,它反映了模型本身的准确性。
  • 方差(Variance):是指模型在不同训练数据集上的预测结果的变化程度。方差可以理解为模型的稳定性。
  • 偏差 - 方差权衡(Bias - Variance Tradeoff):在机器学习中,模型的泛化误差(模型在新数据上的误差)可以分解为偏差、方差和不可约误差(数据本身的噪声等)。偏差 - 方差权衡是指在模型选择和训练过程中,需要在偏差和方差之间找到一个平衡。一般来说,随着模型复杂度的增加,方差会增大,偏差会减小;而随着模型复杂度的降低,方差会减小,偏差会增大。

4、MSE(mean square error)均方误差,测量预测精度

5、Overfitting的解决方式

  • cross validation
  • Train with more data
  • Remove features
  • Early stopping

6、分类器的精确度accuracy

  • 四类值
  • 评估函数-Sn,FDR,CC,AC

  • ROC(Receiver Operating Characteristic or Relative Operating Characteristic):TPR-FPR
    • 最好的分类器:ROC=1
    • 随机分类ROC=0.5,对角线

Clustering-典型的无监督学习

1、分层聚类:Hierarchical Clustering

  • Nearest Neighbor Algorithm(bottom-up)

2、模型聚类

  1. K-means, fuzzy k-means
  2. Self-organization mapping (SOM)
  3. Gaussian mixture model, Bayesian clustering Algorithms
  4. Nonnegative Matrix factorization
  5. Iterative signature algorithm (ISA), progressive ,iterative signature algorithm (PISA)…
  6.  Biclustering

3、选择聚类的类别个数:选择AIC和BIC值最小的

4、工具

  • Cluster 3.0
  •  TreeView

Classification-监督学习

1、常见分类和预测算法

  • SVM:Fisher判别分析【投影后的组间距和组内距比值最大】;关键:VC dimension
  • Decision tree (CART, C4.5)
  • Neural networks
  • Nearest neighbour (KNN)
  • Logistic regression
  • Projection pursuit
  • Bayesian belief networks

2、聚合分类器Aggregating classifiers

  • 按照分类
    • Bagging(Bootstrap aggregating):并行;【泛化能力强,噪声不敏感】通过自助采样(Bootstrap Sampling)从原始训练数据集有放回地抽取多个子数据集,然后分类器预测,结果均分投票。【也可用于回归问题,基分类器的预测结果平均即可】e.g.random forests
    • Boost:串行;【准确性高但易过拟合,噪声敏感】先从初始训练数据集训练出一个基分类器,然后根据这个基分类器的表现,调整训练数据的权重。在后续的迭代过程中,重点关注那些被前面的分类器错误分类的样本。经过多次迭代(假设为T次),得到T个基分类器。在预测阶段,将这个基分类器的预测结果按照一定的权重组合起来,这些权重通常是根据每个基分类器在训练过程中的准确率来确定的,准确率越高的基分类器权重越大。
  • 例如:Random forests(FR):decision tree的bagging【抗过拟合和稳定】

3、KNN算法

3.1 步骤

算距离:给定待分类样本,计算它与已分类样本中的每个样本的距离;

找邻居:圈定与待分类样本距离最近的K个已分类样本,作为待分类样本的近邻;

做分类:根据这K个近邻中的大部分样本所属的类别来决定待分类样本该属于哪个分类;

3.2 *K-means和KNN的区别

K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。

当然,两者也有一些相似点,两个算法都包含一个过程,即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。

4、特征提取

4.1 两种方法:

①逐步回归:以逐步的方式输入和删除预测器,直到没有合理的理由输入或删除更多。

②最佳子集回归:选择最能满足某些明确定义的客观标准的预测因子子集。

4.2 LASSO:一种降维方法(逐步回归)

4.3 Ridge Regression岭回归

应用-基因表达和评估

1、生物背景

  1. DNA Microarray(即DNA Chip)检测mRNA(即cDNA),评估基因表达
  2. RNA-seq,表达值FPKM (RPKM): Fragments Reads Per Kilobase of exon model per Million mapped fragments

2、类别比较

2.1 control and test的基因上下调

  • Fold change
  • 统计量:t test, SAM,non-parametric(relative entropy),Emperical bayesian
  • 结果取决于假设,不同分析方法结果不同
  • Hypothesis Testing:先假设不成立Null hypothesis(H0),再计算概率,P<0.05认为对立假设Null hypothesis (H1)可以接受
  • Type I and Type II Error
    • Type I:H0,Reject Null
    • Type II:H1,retain Null

2.2 Multiple Comparisons

  • 当多个比较时,两两间OK,但是随着假设变多,type I error概率增加
  • 解决:Bonferroni correction( family wise error rate ,FWER) ;Benjamin-Hochberg procedure(False Discovery Rate ,FDR)

3、基因富集分析Gene Set Enrichment Analysis (GSEA)

  • 一组先验基因在两种生物状态(如表型)之间是否显示出统计学意义上的显著一致差异,是DEGs的标准步骤。evaluate microarray data at the level of gene sets, which is defined based on prior knowledge (such as gene sets from GO categories or pathways from KEGG)
  • 步骤
    • Calculation of an enrichment score (ES).
    • Estimation of significance level of ES.
    • Adjustment for MHT.
  • Tool:R,DAVID WebService

考试重点

1、概念与计算:FPKM(RPKM)、四类值衡量分类器精确度、ROC

2、了解

        偏差-方差均衡、MSE、K-means与KNN,AIC和BIC、Bagging和Boost、LASSO和Ridge Regression,GSEA

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值