基于深度学习的有机化合物 log KOW 预测模型研究
1. 数据采集与处理
在进行有机化合物性质估算时,由于无量纲的 KOW 值跨度超过 10 个数量级,因此常采用 KOW 的十进制对数(log KOW)。研究收集了大量化合物的实验测量 log KOW 值,并确保所有实验值都有可靠的参考文献,以保证预测模型的合理性。
为了构建用于有机化合物的定量结构 - 性质关系(QSPR)模型,排除了一些无关化合物,包括无机化合物(如二氧化碳、六氟化硫和肼)、金属有机化合物(即含有钠、铬或/和锡等金属原子的有机化合物)以及由两种或更多化合物组成的混合物。最终保留了 10,754 种纯有机化合物用于模型开发。
由于收集的数据集较大,数据清洗至关重要。采用 Pauta 准则(即三西格玛规则)来检测和去除包含重大误差的异常值。该准则指出,对于正态分布的参数,99.73% 的值落在平均值(μ)的三倍标准差(σ)范围内,超出此区间的误差被视为重大误差,相应的数据点被视为异常值并从样本数据中排除。经过清洗,从 10,754 种有机化合物中检测出 86 种(约占数据集的 0.8%)异常值并移除,剩余的 10,668 种有机化合物作为最终数据集用于开发预测 log KOW 的 QSPR 模型。
数据集涵盖了广泛的分子结构类型,包括脂肪族和芳香族烃、醇和酚、杂环化合物、胺、酸、酮、酯、醛、醚等。不同类型化合物在整个数据集以及训练集、测试集和外部集的分布情况如下表所示:
|化合物类型|训练集|测试集|外部集|整个数据集|
| ---- | ---- | ---- | ---- | ---- |
|脂肪族和芳香族烃|731|80|114|925|
|醇和
超级会员免费看
订阅专栏 解锁全文
31

被折叠的 条评论
为什么被折叠?



