SNPs分类:使用遗传算法构建生物高级知识
1. 引言
分子生物学领域为计算机技术的发展和应用提供了广阔空间。然而,由于涉及的信息量大且复杂,传统计算工具在处理复杂生物问题时存在局限性。计算智能技术,如遗传算法,因其能自动学习、处理大量数据并生成有用假设的能力,在分子生物学问题解决中得到了越来越多的应用。
识别与人类常见疾病易感性或抗性相关的基因,随着全基因组范围内寻找DNA序列变异方法的改进而变得更可行。对于罕见疾病相关基因的定位,研究人员通常对家族进行连锁分析,这需要300 - 500个覆盖整个人类基因组的高信息含量遗传标记。但定位糖尿病、心脏病、癌症和精神疾病等常见疾病的相关基因则困难得多,因为这些疾病的表型受多个微小效应基因和环境因素的共同影响。此时,对大量患病和未患病个体进行关联分析可能更有效,这需要全基因组范围内数十万个变异信息。
人类约90%的序列变异是单碱基差异,即单核苷酸多态性(SNPs),它们可存在于基因的编码区或调控区。随着大规模识别SNPs技术的发展,已知的SNPs数量呈指数级增长,美国国立卫生研究院(NIH)的SNP数据库已包含约280万例。了解个体的SNP基因型有望为疾病易感性评估和治疗方案选择提供依据,但要实现这一目标,还需深入理解这些变异如何以及何时导致疾病。
本研究旨在从特定的SNP数据库子集挖掘准确、简短的高级规则,为每个类别单独关联规则,并为规则中的每个特征赋予值,以帮助研究人员理解冈比亚按蚊SNP的变异机制。为此,我们设计了一种遗传算法来从冈比亚按蚊的dbSNP数据库中获取IF - THEN规则。
2. 进化环境
2.1 遗传算法(GA)
遗传算法是基于
超级会员免费看
订阅专栏 解锁全文
14

被折叠的 条评论
为什么被折叠?



