6、基于深度学习的有机化合物 log KOW 预测模型研究

基于深度学习的有机化合物 log KOW 预测模型研究

1. 数据采集与处理

在进行有机化合物性质估算时,由于无量纲的 KOW 值跨度超过 10 个数量级,因此常采用 KOW 的十进制对数(log KOW)。研究收集了大量化合物的实验测量 log KOW 值,并确保所有实验值都有可靠的参考文献,以保证预测模型的合理性。

为了构建用于有机化合物的定量结构 - 性质关系(QSPR)模型,排除了一些无关化合物,包括无机化合物(如二氧化碳、六氟化硫和肼)、金属有机化合物(即含有钠、铬或/和锡等金属原子的有机化合物)以及由两种或更多化合物组成的混合物。最终保留了 10,754 种纯有机化合物用于模型开发。

由于收集的数据集较大,数据清洗至关重要。采用 Pauta 准则(即三西格玛规则)来检测和去除包含重大误差的异常值。该准则指出,对于正态分布的参数,99.73% 的值落在平均值(μ)的三倍标准差(σ)范围内,超出此区间的误差被视为重大误差,相应的数据点被视为异常值并从样本数据中排除。经过清洗,从 10,754 种有机化合物中检测出 86 种(约占数据集的 0.8%)异常值并移除,剩余的 10,668 种有机化合物作为最终数据集用于开发预测 log KOW 的 QSPR 模型。

数据集涵盖了广泛的分子结构类型,包括脂肪族和芳香族烃、醇和酚、杂环化合物、胺、酸、酮、酯、醛、醚等。不同类型化合物在整个数据集以及训练集、测试集和外部集的分布情况如下表所示:
|化合物类型|训练集|测试集|外部集|整个数据集|
| ---- | ---- | ---- | ---- | ---- |
|脂肪族和芳香族烃|731|80|114|925|
|醇和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值