后基因组时代聚类与蛋白质亚细胞定位预测研究
在当今的后基因组时代,数据处理和分析对于理解生物系统的奥秘至关重要。聚类分析以及蛋白质亚细胞定位预测是其中两个关键的研究领域,它们在揭示基因功能、蛋白质相互作用等方面发挥着重要作用。
聚类算法中的NMF评估
在聚类算法的选择上,非负矩阵分解(NMF)似乎在与其他两种经典算法的竞争中处于劣势。NMF作为一种聚类算法,其计算成本高昂,尤其是在处理大型数据集时,这种劣势更为明显。相比之下,平均链接法(Average Link)不仅速度至少比NMF快四个数量级,而且精度更高。实际上,NMF的主要优势在于其模式发现能力,将其作为聚类算法使用,极大地限制了该技术的应用。
聚类的内部验证措施
聚类过程的最后一步是通过验证措施评估聚类解决方案的统计显著性。研究主要关注数据驱动的内部措施,这些措施能够预测给定数据集中正确的聚类数量。相关研究对不同范式下的验证措施进行了广泛的比较分析,主要包括以下几个方面:
1. 内部验证措施的层次结构 :内部验证措施存在自然的层次结构,最快但精度较低的措施位于顶层。例如,簇内平方和(WCSS)是最快的措施之一,但与最慢的措施相比,在时间上至少有两个数量级的差距。
2. 大数据集的局限性 :所有被考虑的验证措施在处理具有大量聚类的大型数据集时都存在严重局限性,要么无法准确预测聚类数量,要么无法在合理时间内完成计算。
3. Consensus措施的特性 :尽管Consensus是最慢的措施之一,但它具有显著的特性,使其成为中小型数据集的首选措施。它在预测数据集
超级会员免费看
订阅专栏 解锁全文
26

被折叠的 条评论
为什么被折叠?



