聚类 k - 匿名算法与语义相似度在比较基因组学中的研究
1. 聚类 k - 匿名算法
1.1 算法关键组件影响
聚类算法在创建高质量匿名化数据方面展现出强大能力。其三个关键组件(种子选择、相似度测量和停止准则)对数据质量和性能均有显著影响。具体表现如下:
- 种子选择 :最远优先种子选择和全连接策略有利于提升数据实用性;随机种子选择和单连接策略则可提高处理效率。当 k 值较小时,结合最远优先种子选择和质心连接能在数据实用性和性能之间取得良好平衡。
- 停止准则 :基于质量的停止准则较为灵活,但计算成本较高。许多基于聚类的算法在优化数据实用性时,可能无法充分保护个体身份信息。
1.2 实验结论
通过对不同聚类技术策略的比较研究,使用真实世界和合成数据验证了各策略的有效性和效率。实验表明,TSR 和 SCF 受 k 值影响不显著,这是因为在形成聚类前对聚类代表与候选元组之间的成对距离进行了排序,且质心计算受 k 值影响不大。
2. 语义相似度在比较基因组学中的应用
2.1 基因本体(GO)
2.1.1 GO 的产生背景
过去十年,生物数据(如 DNA 序列、蛋白质序列和基因表达数据)呈指数级增长,同时相关注释数据也大量涌现。然而,这些注释数据多以人类易读但计算机难以处理的格式存在,且不同研究领域和物种组在数据注释和存储方面存在差异,导致生物数据虽丰富但计算分析困难。为解决这一问题,1998 年,Flybase、Mouse Genome Informatics 和 Sac
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



