利用中医知识进行文本挖掘以发现相关基因的功能群落
1. 引言
过去十年,生物医学数据的产出和相关文献数量都呈现出前所未有的增长态势。这既是机遇,也是挑战,因为科学文献和数据量的急剧增加使得人们迫切需要有效的方法来处理和利用这些信息。后基因组时代的生命科学研究聚焦于功能基因组学和蛋白质组学,但目前生命科学研究仍以还原论和自下而上的方法为主,缺乏整体知识。
中医是一种有效的传统医学疗法,如针灸和中药方剂,它蕴含着数千年临床实践积累的整体知识。症状复合体(Symptom Complex,SC)是中医研究的核心问题之一,它是一个整体的临床疾病概念,反映了人体动态、功能、时空的病态状况。自上世纪90年代以来,中医机构和院校已经整理了多个书目数据库,其中一个主要的数据库包含了自1984年以来中国900种生物医学期刊的约50万条记录,且50%的记录有摘要,这些高质量的文献存储为文本挖掘提供了良好的数据来源。
如何将中医与现代生命科学相结合,并利用中医的整体知识推动大生物学研究,是一个值得深入研究的开放性问题。实验方法在实现这一目标时面临极大困难,因为大多数中医概念是定性的且系统复杂。而自动化文献挖掘为整合多领域研究人员收集的信息碎片提供了机会,有助于揭示细胞中各种基因、蛋白质和化学反应之间以及生物体中病理、心理和智力状态之间的相互关系。许多研究专注于从生物医学文献中提取基因或蛋白质名称、蛋白质 - 蛋白质相互作用以及基因 - 疾病关系等信息。本文旨在提供一种利用中医文献中发现的中医知识,从MEDLINE中识别基因功能关系的文本挖掘方法。
2. 现代生物医学研究与中医
在过去的一个世纪里,现代生物医学研究遵循还原论和定性实验方法,即分子生物学,将人体分