基于RDKit的分子描述符分析与特征选择：以溶解度预测为例

AIDD Learning

于 2024-11-26 20:36:58 发布

阅读量1.5k

点赞数 37

文章标签： RDKit 机器学习溶解度预测分子描述符

本文链接：https://blog.youkuaiyun.com/qq_39889473/article/details/144067629

版权

基于RDKit的分子描述符分析与特征选择：以溶解度预测为例

在药物化学、材料科学和环境化学等领域，分子特性与其生物活性或环境行为之间的关系（例如溶解度、毒性等）是至关重要的。定量构效关系（QSAR）建模可以帮助我们理解这些关系，并预测新分子的性质。然而，要建立有效的QSAR模型，首先需要通过合适的分子描述符（如分子指纹、拓扑特征、电子特征等）来表征分子结构。在本篇博客中，我们将使用RDKit来提取分子描述符，并结合机器学习技术进行特征选择和数据分析，以预测分子的溶解度。

1. 数据准备：加载和清洗数据

我们首先加载一个包含溶解度数据的CSV文件，并通过RDKit的SMILES标准化功能确保每个分子都有唯一的、标准化的SMILES表示。标准化的SMILES对于后续计算和模型训练至关重要，因为它消除了化学结构描述中的不同表述方式。

import pandas as pd
dataset = pd.read_csv('solubility.csv')

# 生成规范的smiles
def canonical_smiles(smiles):
    mols = [Chem.MolFromSmiles(smi) for smi in smiles] 
    smiles = [Chem.MolToSmiles(mol) for mol in mols]
    return smiles

# Canonical SMILES
Canon_SMILES = canonical_smiles(dataset.smiles)
dataset['SMILES'] = Canon_SMILES
dataset_new = dataset.drop_duplicates(subset=['SMILES'])

# 可视化溶解度分布
import seaborn as sn
sn