11、基于逻辑回归集成(Lorens)的DUD - E数据库酶分类研究

基于逻辑回归集成(Lorens)的DUD - E数据库酶分类研究

1. 引言

药物发现是一个复杂、耗时且昂贵的过程。一般来说,开发一种新的潜在药物可能需要约5年时间,而进入临床测试阶段并成为商业药物可能需要7年,成本超过7亿美元。计算机模拟(in silico)方法被引入药物设计过程中,事实证明它更加有效。为了找到潜在的抑制剂,与药物发现相关的计算机模拟筛选是必要的。在药物生产过程中,酶化合物分类主要使用对接软件,基于分子结构模拟混合物(新的抑制剂候选物)与目标酶的结合。

本研究将对接评分过程应用于DUD - E数据库中的3种酶(该数据库是模拟对接的标准数据库,包含目标酶、配体和诱饵3种类型的数据),对aofb、cah2和hs90a这3种目标酶进行分类。数据具有高维特征,化合物数量众多。此前有研究使用支持向量机(SVM)基于对接评分计算对酶进行分类,虽然SVM的分类准确率可达99%,但与其他分类方法相比,它在敏感性和特异性之间难以取得平衡。机器学习方法在医学领域的应用也十分广泛。

本研究旨在使用合适的统计方法进行对接评分步骤,即二元逻辑回归。二元逻辑回归是一种标准方法,适用于标准数据规模的情况。但对于高维数据,当预测变量数量过多时,逻辑回归需要进行特征选择。而逻辑回归集成方法(Lorens)可以克服逻辑回归的这一弱点,它基于随机分区的集成分类(CERP)方法。已有研究将Lorens应用于儿童健康科学的基因表达研究以及客户流失分类,结果表明Lorens在处理大量观测数据时优于标准逻辑回归。

本研究将使用二元逻辑回归和逻辑回归集成(Lorens)两种方法对DUD - E数据库中的酶化合物进行分类,并通过留出法和交叉验证法评估Lorens的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值