底物的分子描述符计算及 CYP450 酶-底物选择性技术研究

本文介绍了一种基于网络的标签空间划分方法,用于预测CYP450酶-底物的选择性。研究计算了四种底物分子描述符,并通过机器学习算法构建模型。采用NLSD-X算法进行标签空间划分,比较了标签传播法和快速贪婪算法。

本篇推文引自:基于网络的标签空间划分方法预测 CYP450 酶-底物选择性

1. 分子描述符计算

    本文计算了四种类型的底物分子描述符并把他们当成 4 类特征表示用于机器学习建模,这 4 类特征包括:物化(Physiochemical, PC)特征描述符,mol2vec (M2V)描述符,扩展连接指纹(ECFP)和 Molecular ACCess System(MACCS) 密匙指纹。

    在计算物化性质描述符时,通过使用一个经 Python 开源的化学信息包 RDKit(http://www.rdkit.org/)生成了 200 个描述底物性质的物化特征;通过使用药物研发可视化仿真软件(Molecular Operating Environment, MOE)生成了313个描述底物性质的物化特征。通过对两种不同方式获得的物化特征进行去重,最终得到了 478 个物化性质描述符。

    Mol2vec 是一种受自然语言处理(Natural Language Processing, NLP)启发的技术,它将源自 Morgan 算法的复合子结构视为“单词”,将该复合结构视为“句子”。Word2vec 是一种基于神经网络的方法,在传统的文本挖掘分析中非常方便,其有助于更好地表示数据:彼此相似的单词有相似的向量,而彼此不相似的单词有不同的向量,这可以很好地将相似的单词描绘成计算机语言。在Word2vec模型中,紧密相关单词的向量在向量空间中非常接近,Mol2vec方法通过在化合物集合上训练一种无监督的机器学习方法,可以获得分子子结构矢量表示,它首先对未标记的数据集进行训练,得到子结构的特征向量,然后对特征向量求和,得到复合向量。本研究以该复合向量作为 mol2vec 描述符,共使用 300 个 mol2vec 描述符进行建模。

    MACCS 密匙指纹是一种快速筛选分子数据库中子结构的方法,常被用来计算 化学相似性。据了解,官方研究版的 MACCS 密匙总共包含 166 位,其中的每一位都对应着一个特定的分子标记,比如其对应编号为 NO.154 的键代表羰基,即在 MACCS 密匙指纹第 154 维的特征上,“1”表示有这个分子标记,“0” 表示不存在这一分子标记。

    无论是在从诱饵中分离活性物的虚拟筛选方面,还是在根据相似度对不同结构进行搜索排序方面,ECFP 分子指纹都有很好的表现。有研究表明,为了获得更好的表现,超过 1024 维的 ECFP 分子指纹是值得被生成并用于建模的。所以, 在本研究中,选择了 2048 维的 ECFP分子指纹进行建模。

    总的来说,选择了 478 个物化性质描述符、300 个 mol2vec 描述符、2048 维 ECFP 分子指纹和 166 位 MACCS 密匙指纹进行模型训练。对这些特征进行了预处理,包括去掉全为 0 或全为 1 的列以及标准化。采取的标准化方法为最大最小值标准化方法,即每一个特征的数值都通过减去该特征数值范围内的最小值并除以数值范围,从而被标准化为 0 到 1 之间。然后,对这 4 类特征进行了基于基准模型 ML-kNN 的 15 种不同特征组合验证,通过计算得到了表现性能最佳的特征组合用于建模。

2. 建模技术

    在本研究中,使用了几种不同的多标签分类算法来构建“CYP450 酶-底物 选择性”研究的分类模型。在模型验证阶段,首先选择了一种与“WhichP450” 5一文一样的验证方法——在全数据集(未划分训练集与测试集)上进行 5 折交 叉验证(CV)。其次,第二种验证方法在全数据集上进行了训练集与测试集的划分——留出法验证(HO)。考虑到数据集样本数有限,所以按照 85%:15% 的比例划分了训练集与验证集,然后在训练集上进行了建模训练。为了减少数据集划分带来的偏差,随机打乱了数据集(每次设置一个随机种子),然后在 CV 方法和 HO 方法两种验证方法的基础上,所有模型均重复了 10 次建模过程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值