6、基于深度学习的有机化合物 log KOW 预测模型研究

最新推荐文章于 2025-11-25 14:31:30 发布

电竞养老选手

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量78

点赞数

CC 4.0 BY-SA版权

分类专栏： AI赋能过程工程文章标签：深度学习有机化合物 log KOW

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152070161

AI赋能过程工程专栏收录该内容

47 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于深度学习的有机化合物 log KOW 预测模型研究

1. 数据采集与处理

在进行有机化合物性质估算时，由于无量纲的 KOW 值跨度超过 10 个数量级，因此常采用 KOW 的十进制对数（log KOW）。研究收集了大量化合物的实验测量 log KOW 值，并确保所有实验值都有可靠的参考文献，以保证预测模型的合理性。

为了构建用于有机化合物的定量结构 - 性质关系（QSPR）模型，排除了一些无关化合物，包括无机化合物（如二氧化碳、六氟化硫和肼）、金属有机化合物（即含有钠、铬或/和锡等金属原子的有机化合物）以及由两种或更多化合物组成的混合物。最终保留了 10,754 种纯有机化合物用于模型开发。

由于收集的数据集较大，数据清洗至关重要。采用 Pauta 准则（即三西格玛规则）来检测和去除包含重大误差的异常值。该准则指出，对于正态分布的参数，99.73% 的值落在平均值（μ）的三倍标准差（σ）范围内，超出此区间的误差被视为重大误差，相应的数据点被视为异常值并从样本数据中排除。经过清洗，从 10,754 种有机化合物中检测出 86 种（约占数据集的 0.8%）异常值并移除，剩余的 10,668 种有机化合物作为最终数据集用于开发预测 log KOW 的 QSPR 模型。

数据集涵盖了广泛的分子结构类型，包括脂肪族和芳香族烃、醇和酚、杂环化合物、胺、酸、酮、酯、醛、醚等。不同类型化合物在整个数据集以及训练集、测试集和外部集的分布情况如下表所示：
|化合物类型|训练集|测试集|外部集|整个数据集|
| ---- | ---- | ---- | ---- | ---- |
|脂肪族和芳香族烃|731|80|114|925|
|醇和