化学性质预测的智能方法与实践
1. 分子特征提取与混合预测模型构建
在有机化合物性质预测领域,为避免分子结构表征中不同可行策略带来的问题,提出了一种明确的特征提取策略。该策略能克服基于基团贡献(GC)方法的一些缺点,比如化合物存在多个预测值的问题。
具体操作步骤如下:
- 构建神经网络 :构建一个四层神经网络,将分子特征的频率作为输入,把分子结构与有机化合物的目标性质值关联起来。
- 训练与评估 :利用获取的实验数据对神经网络进行训练,并使用未参与训练过程的测试集进行评估。
- 优化神经元数量 :在训练过程中,采用五折交叉验证和网格搜索的方法,优化神经网络中的神经元数量,以获得稳健的模型。
通过将该策略与机器学习算法相结合,得到了一个混合预测模型。以纯有机化合物在水中的 logHLC 值为例,基于 2566 种有机化合物在水中的实验值构建了预测模型。同时,研究了 PBF 描述符的引入和两种数据集划分方法对模型性能的影响。结果表明,四个预测模型具有良好的可预测性和预测准确性。统计分析显示,在聚类抽样下用 PBF 补充特征向量开发的预测模型表现出明显更好的预测能力,证明了引入 PBF 描述符和在抽样中采用 k - 均值聚类提高了模型性能。
与文献中报道的预测模型相比,该开发的预测模型虽然使用了更少的分子描述符,但具有更高的预测准确性,并且在适用的综合数据库方面表现出更强的通用性,涵盖了更多种类的有机化合物。因此,所提出的策略和模型开发方法是开发性质预测模型的一种有前景且有效的方法,可用于指导减少环境中的污染物和开发更绿色的
超级会员免费看
订阅专栏 解锁全文
14万+

被折叠的 条评论
为什么被折叠?



