生物统计学(biostatistics)笔记-6.Clustering

BioInfo_Sherry

已于 2024-12-13 11:55:40 修改

阅读量866

点赞数 25

分类专栏：生物统计学笔记文章标签：笔记

于 2024-12-13 11:52:24 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_73406425/article/details/144445211

版权

生物统计学同时被 2 个专栏收录

6 篇文章

订阅专栏

笔记

6 篇文章

订阅专栏

4、MSE(mean square error)均方误差，测量预测精度

5、Overfitting的解决方式

6、分类器的精确度accuracy

Clustering-典型的无监督学习

1、分层聚类：Hierarchical Clustering

2、模型聚类

3、选择聚类的类别个数：选择AIC和BIC值最小的编辑编辑

4、工具

Classifier

1、Classification and Prediction-监督学习

2、聚合分类器Aggregating classifiers

4.2 LASSO：一种降维方法（逐步回归）编辑编辑

4.3 Ridge Regression岭回归编辑编辑

应用-基因表达和评估

1、生物背景

2、类别比较

2.1 control and test的基因上下调

2.2 Multiple Comparisons

3、基因富集分析Gene Set Enrichment Analysis (GSEA)

考试重点

1、概念与计算：FPKM（RPKM）、四类值衡量分类器精确度、ROC

2、了解

机器学习分类

监督学习：主要是预测，输出量y连续时称为回归，y离散时称为分类。
无监督学习e.g.聚类
强化学习：是对行为进行奖赏或者惩罚，通过自我学习，争取获得更多的奖赏而不是惩罚。

基础知识

1、个体相似性的衡量

Pearson Correlation
Euclidean Distance
Cosine Correlation
Fourier Transformation

2、群体相似性的衡量

Single linkage
Complete linkage
Average linkage
Average group linkage

3、偏差-方差均衡

偏差（Bias）：是指模型的预测值与真实值之间的差异，它反映了模型本身的准确性。
方差（Variance）：是指模型在不同训练数据集上的预测结果的变化程度。方差可以理解为模型的稳定性。
偏差 - 方差权衡（Bias - Variance Tradeoff）：在机器学习中，模型的泛化误差（模型在新数据上的误差）可以分解为偏差、方差和不可约误差（数据本身的噪声等）。偏差 - 方差权衡是指在模型选择和训练过程中，需要在偏差和方差之间找到一个平衡。一般来说，随着模型复杂度的增加，方差会增大，偏差会减小；而随着模型复杂度的降低，方差会减小，偏差会增大。

4、MSE(mean square error)均方误差，测量预测精度

5、Overfitting的解决方式

cross validation
Train with more data
Remove features
Early stopping

6、分类器的精确度accuracy

四类值
评估函数-Sn，FDR,CC,AC

ROC（Receiver Operating Characteristic or Relative Operating Characteristic):TPR-FPR
- 最好的分类器：ROC=1
- 随机分类ROC=0.5，对角线

Clustering-典型的无监督学习

1、分层聚类：Hierarchical Clustering

Nearest Neighbor Algorithm(bottom-up)

2、模型聚类

K-means, fuzzy k-means
Self-organization mapping (SOM)
Gaussian mixture model, Bayesian clustering Algorithms
Nonnegative Matrix factorization
Iterative signature algorithm (ISA), progressive ，iterative signature algorithm (PISA)…
Biclustering

3、选择聚类的类别个数：选择AIC和BIC值最小的

4、工具

Cluster 3.0
TreeView

Classification-监督学习

1、常见分类和预测算法

SVM：Fisher判别分析【投影后的组间距和组内距比值最大】；关键：VC dimension
Decision tree (CART, C4.5)
Neural networks
Nearest neighbour (KNN)
Logistic regression
Projection pursuit
Bayesian belief networks

2、聚合分类器Aggregating classifiers

按照分类
- Bagging(Bootstrap aggregating):并行；【泛化能力强，噪声不敏感】通过自助采样（Bootstrap Sampling）从原始训练数据集有放回地抽取多个子数据集，然后分类器预测，结果均分投票。【也可用于回归问题，基分类器的预测结果平均即可】e.g.random forests
- Boost：串行；【准确性高但易过拟合，噪声敏感】先从初始训练数据集训练出一个基分类器，然后根据这个基分类器的表现，调整训练数据的权重。在后续的迭代过程中，重点关注那些被前面的分类器错误分类的样本。经过多次迭代（假设为T次），得到T个基分类器。在预测阶段，将这个基分类器的预测结果按照一定的权重组合起来，这些权重通常是根据每个基分类器在训练过程中的准确率来确定的，准确率越高的基分类器权重越大。
例如：Random forests(FR)：decision tree的bagging【抗过拟合和稳定】

3、KNN算法

3.1 步骤

算距离：给定待分类样本，计算它与已分类样本中的每个样本的距离；

找邻居：圈定与待分类样本距离最近的K个已分类样本，作为待分类样本的近邻；

做分类：根据这K个近邻中的大部分样本所属的类别来决定待分类样本该属于哪个分类；

3.2 *K-means和KNN的区别

K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

当然，两者也有一些相似点，两个算法都包含一个过程，即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。

4、特征提取

4.1 两种方法：

①逐步回归:以逐步的方式输入和删除预测器，直到没有合理的理由输入或删除更多。

②最佳子集回归:选择最能满足某些明确定义的客观标准的预测因子子集。

4.2 LASSO：一种降维方法（逐步回归）

4.3 Ridge Regression岭回归