基于机器学习的抗惊厥药物虚拟筛选与模型构建
在药物研发领域,利用机器学习方法进行虚拟筛选和模型构建是一种高效且有前景的策略。本文将详细介绍如何运用机器学习技术构建配体 - 基于线性模型,以区分抗惊厥药物的活性和非活性,并进行虚拟筛选。
1. 数据处理与模型构建
- 数据集划分 :为了获得具有增强预测能力的模型,采用聚类方法对数据集进行代表性划分。使用了分层和非分层相结合的程序,先应用基于最大公共子结构(MCS)的分层聚类方法,再用 k - 均值算法优化聚类结果。分别对活性和非活性类进行独立聚类,得到平衡的训练集(30 个活性化合物和 30 个非活性化合物),其余化合物分配到测试集(14 个活性和 16 个非活性化合物)。
- 描述符计算 :使用 Dragon 6.0 软件计算 3668 个与构象无关的(0D - 2D)分子描述符。采用随机子空间方法探索描述符空间,生成 1000 个包含 200 个描述符的随机子集,并从每个子集训练一个模型。
- 模型训练 :以与每个数据集类别(活性和非活性化合物)相关的二元变量作为因变量,活性化合物赋值为 1,非活性化合物赋值为 0。使用半相关方法和前向逐步特征选择程序从每个随机特征子集获得一个模型。选择 0.5 的容差排除高度相关的描述符,使用训练集示例数与描述符数的最小比例为 10 以减少过拟合的可能性。
2. 模型验证
- 交叉验证 :采用分层留组交叉验证,每次从训练集中移除包含 5 个活性和
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



