【DataWhale AI 夏令营】物质科学赛道:催化反应产率预测——task1

一、赛题任务

概括:构建一个能够准确预测碳氮成键反应产率的预测模型。

实现要求:通过对反应中所包含的反应底物、添加剂、溶剂以及产物进行合理的特征化,运用机器学习模型或者深度学习模型拟合预测反应的产率。

二、赛题数据

初赛数据集仅包含碳氮成键类型反应数据,其中训练集中包含23538条反应数据,测试集中包含2616条反应数据,训练集与测试集的比例接近9:1。

每条训练数据包含 rxnid, Reactant1, Reactant2 , Product , Additive , Solvent , Yield字段。其中 Reactant1 , Reactant2 , Product , Additive , Solvent 字段中为对应物质的SMILES字符串,Yield字段为目标字段,是经过归一化的浮点数。

三、baseline构建过程

1. 环境配置

配置以下环境的原因

pandas中一众函数:数据处理与分析的利器。
scikit-learn:提供机器学习中的回归算法,以及构建产率预测模型用到的随机森林算法。
rdkit中一众函数:与pandas搭配使用,负责处理本题的反应底物(数据集中的Reactant1, Reactant2)、产物(Product)、添加剂(Additive)、溶剂(Solvent)这些化学信息。

具体实现

!pip install pandas
!pip install -U scikit-learn
!pip install rdkit

2. 导入相关库

pickle:对对象进行序列化和反序列化处理。
tqdm:提供进度条,让训练模型的进度可视化。
numpy:扩展Python原有的数据计算,同时也是pandas库的基础。

import pickle
import pandas as pd
from tqdm import tqdm
from sklearn.ensemble import RandomForestRegressor
from rdkit.Chem import rdMolDescriptors
from rdkit import RDLogger,Chem
import numpy as np
RDLogger.DisableLog('rdApp.*')

3. 特征提取

SMILES

全称是Simplified Molecular Input Line Entry System,是一种将化学分子用ASCII字符表示的方法,是化学信息学领域非常重要的工具。

一些常见的化学结构的SMILES表示:
表1

化学反应的SMILES表示:
表2
其中,“.”相当于反应方程式的加号,“>>”相当于反应方程式的等号。

由于Reactant1,Reactant2,Product,Additive,Solvent都可以由SMILES表示。所以,可以使用rdkit工具直接提取SMILES的分子指纹(向量),作为特征。

Morgan fingerprint

位向量(bit ector)形式的特征,即由0,1组成的向量。

构建相关函数

mfgen:将从SMILES中提取的数据转化为位向量形式的Morgan分子指纹,方便处理。
vec_cpd_lst:用于加载SMILES列表的函数。

def mfgen(mol,nBits=2048, radius=2):
    '''
    Parameters
    ----------
    mol : mol
        RDKit mol object.
    nBits : int
        Number of bits for the fingerprint.
    radius : int
        Radius of the Morgan fingerprint.
    Returns
    -------
    mf_desc_map : ndarray
        ndarray of molecular fingerprint descriptors.
    '''
    # 返回分子的位向量形式的Morgan fingerprint
    fp = rdMolDescriptors.GetMorganFingerprintAsBitVect(mol,radius
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

飞升 | 霸气

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值