聚类分析
监督分类和非监督分类(是模式识别的一种方法)的共性和区别
共性:
非监督法与监督法都是以图像的灰度为基础。通过统计计算一些特征参数,如均值,协方差等进行分类的。
区别:
有监督必须有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律;非监督没有训练集,只有一组数据,在该组数据集内寻找规律。
有监督方法的目的是识别事物,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成;非监督方法只有分析数据集本身,无标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号为目的。
聚类方法分为硬聚类和软聚类
聚类是基因表达数据分析中的重要工具-无论是在转录本还是蛋白质水平上,这种无监督分类技术通常用于揭示隐藏在大型基因表达数据集中的结构。其中大多数聚类算法都会对数据进行硬分区, 给一个聚类。如果群集分离良好,则硬群集是有利的,但是基因或蛋白质表达数据通常不是这种情况,因为基因或蛋白质簇经常重叠。另外,硬聚类算法通常对噪声非常敏感。为了克服硬聚类的局限性,我们实施了软聚类,软聚类具有更强的噪声鲁棒性,并且可以避免对基因或蛋白质进行先验的预过滤,这样可以防止从数据分析中排除生物学相关的基因或蛋白质。
详细解释:
分类标准可以进行不同的分类。就好像人按照性别可以分成男人和女人,按照年龄可以分为老中青一样。聚类分析如果按照隶属度的取值范围可以分为两类,一类叫硬聚类算法,另一类就是模糊聚类算法。隶属度的概念是从模糊集理论里引申出来的。传统硬聚类算法隶属度只有两个值 0 和 1。 也就是说一个样本只能完全属于某一个类或者完全不属于某一个类。举个例子,把温度分为两类,大于10度为热,小于或者等于10度为冷,这就是典型的“硬隶属度”概念。 那么不论是5度 还是负100度都属于冷这个类,而不属于热这个类的。而模糊集里的隶属度是一个取值在[0 1]区间内的数。一个样本同时属于所有的类,但是通过隶属度的大小来区分其差异。比如5度,可能属于冷这类的隶属度值为0.7,而属于热这个类的值为0.3。这样做就比较合理,硬聚类也可以看做模糊聚类的一个特例。
Mfuzz聚类分析
时间序列分析Mfuzz对不同连续样本下蛋白丰度变换进行聚类分析,该方法采用了一种新的聚类算法fuzzy c-means algorithm,相比K-means等hard clustering算法,一定程度上降低了噪声对聚类结果的干扰,而且这种算法有效的定义了基因和cluster之间的关系。为了进一步了解每个cluster中蛋白参与的生物学过程,分别对对每个cluster中的蛋白进行GO功能、KEGG通路和蛋白结构域的富集分析。
2020年发表在Cell上关于新冠蛋白组学Proteomic and Metabolomic Characterization of COVID-19 Patient Sera 它能够识别表达谱的潜在时间序列模式,并将相似模式的基因聚类,以帮助我们了解基因的动态模式和它们功能的联系。