11、基于逻辑回归集成（Lorens）的DUD - E数据库酶分类研究

ios99

于 2025-06-24 15:21:22 发布

阅读量80

点赞数

CC 4.0 BY-SA版权

分类专栏：计算智能前沿：创新与应用文章标签：逻辑回归集成 Lorens DUD-E数据库

本文链接：https://blog.youkuaiyun.com/ios99/article/details/149368376

计算智能前沿：创新与应用专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于逻辑回归集成（Lorens）的DUD - E数据库酶分类研究

1. 引言

药物发现是一个复杂、耗时且昂贵的过程。一般来说，开发一种新的潜在药物可能需要约5年时间，而进入临床测试阶段并成为商业药物可能需要7年，成本超过7亿美元。计算机模拟（in silico）方法被引入药物设计过程中，事实证明它更加有效。为了找到潜在的抑制剂，与药物发现相关的计算机模拟筛选是必要的。在药物生产过程中，酶化合物分类主要使用对接软件，基于分子结构模拟混合物（新的抑制剂候选物）与目标酶的结合。

本研究将对接评分过程应用于DUD - E数据库中的3种酶（该数据库是模拟对接的标准数据库，包含目标酶、配体和诱饵3种类型的数据），对aofb、cah2和hs90a这3种目标酶进行分类。数据具有高维特征，化合物数量众多。此前有研究使用支持向量机（SVM）基于对接评分计算对酶进行分类，虽然SVM的分类准确率可达99%，但与其他分类方法相比，它在敏感性和特异性之间难以取得平衡。机器学习方法在医学领域的应用也十分广泛。

本研究旨在使用合适的统计方法进行对接评分步骤，即二元逻辑回归。二元逻辑回归是一种标准方法，适用于标准数据规模的情况。但对于高维数据，当预测变量数量过多时，逻辑回归需要进行特征选择。而逻辑回归集成方法（Lorens）可以克服逻辑回归的这一弱点，它基于随机分区的集成分类（CERP）方法。已有研究将Lorens应用于儿童健康科学的基因表达研究以及客户流失分类，结果表明Lorens在处理大量观测数据时优于标准逻辑回归。

本研究将使用二元逻辑回归和逻辑回归集成（Lorens）两种方法对DUD - E数据库中的酶化合物进行分类，并通过留出法和交叉验证法评估Lorens的性能。