基于逻辑回归集成(Lorens)的DUD - E数据库酶分类研究
1. 引言
药物发现是一个复杂、耗时且昂贵的过程。一般来说,开发一种新的潜在药物可能需要约5年时间,而进入临床测试阶段并成为商业药物可能需要7年,成本超过7亿美元。计算机模拟(in silico)方法被引入药物设计过程中,事实证明它更加有效。为了找到潜在的抑制剂,与药物发现相关的计算机模拟筛选是必要的。在药物生产过程中,酶化合物分类主要使用对接软件,基于分子结构模拟混合物(新的抑制剂候选物)与目标酶的结合。
本研究将对接评分过程应用于DUD - E数据库中的3种酶(该数据库是模拟对接的标准数据库,包含目标酶、配体和诱饵3种类型的数据),对aofb、cah2和hs90a这3种目标酶进行分类。数据具有高维特征,化合物数量众多。此前有研究使用支持向量机(SVM)基于对接评分计算对酶进行分类,虽然SVM的分类准确率可达99%,但与其他分类方法相比,它在敏感性和特异性之间难以取得平衡。机器学习方法在医学领域的应用也十分广泛。
本研究旨在使用合适的统计方法进行对接评分步骤,即二元逻辑回归。二元逻辑回归是一种标准方法,适用于标准数据规模的情况。但对于高维数据,当预测变量数量过多时,逻辑回归需要进行特征选择。而逻辑回归集成方法(Lorens)可以克服逻辑回归的这一弱点,它基于随机分区的集成分类(CERP)方法。已有研究将Lorens应用于儿童健康科学的基因表达研究以及客户流失分类,结果表明Lorens在处理大量观测数据时优于标准逻辑回归。
本研究将使用二元逻辑回归和逻辑回归集成(Lorens)两种方法对DUD - E数据库中的酶化合物进行分类,并通过留出法和交叉验证法评估Lorens的性能。