分子AI预测赛Task3笔记

话不多说,直接上官方链接:‌​​​‍​⁠​‌​‍​​​‌​⁠‬​‬​​‌​​​​‬‬​​​​‍⁠‍‌​⁠Task3:进阶baseline详解 - 飞书云文档 (feishu.cn)

今天的任务主要将鱼佬Task3的代码过一遍(小白用AI辅助)

一、导入模块

import numpy as np  # 导入NumPy库,通常用于进行科学计算,这里用来处理多维数组
import pandas as pd  # 导入Pandas库,用于数据处理和分析:数据读取,数据转换
from catboost import CatBoostClassifier  # 从catboost库中导入CatBoostClassifier类,用于构建分类模型。
from sklearn.model_selection import StratifiedKFold, KFold, GroupKFold  # 从sklearn库的model_selection模块中导入StratifiedKFold, KFold, GroupKFold类,用于交叉验证。
from sklearn.metrics import f1_score  # 从sklearn库的metrics模块中导入f1_score函数,用于计算F1分数。
# rdkit是一个开源化学信息学软件库,用于处理化学分子和相关数据。(在Task2官方文档有指引)
from rdkit import Chem  # 从rdkit库中导入Chem模块,用于处理化学信息。
from rdkit.Chem import Descriptors  # 从rdkit.Chem模块中导入Descriptors类,用于获取化学分子的描述性特征。
from sklearn.feature_extraction.text import TfidfVectorizer  # 从sklearn库的feature_extraction.text模块中导入TfidfVectorizer类,用于文本数据的TF-IDF向量化。
import tqdm, sys, os, gc, re, argparse, warnings  # 导入tqdm, sys, os, gc, re, argparse, warnings模块,分别用于进度条、系统接口、文件操作、垃圾回收、正则表达式、命令行参数解析和警告控制。
warnings.filterwarnings('ignore')  # 忽略警告信息。

二、数据预处理

train = pd.read_excel('./dataset-new/traindata-new.xlsx')  # 使用Pandas的read_excel函数读取训练数据集的Excel文件。
test = pd.read_excel('./dataset-new/testdata-new.xlsx')   # 使用Pandas的read_excel函数读取测试数据集的Excel文件。

# test数据不包含 DC50 (nM) 和 Dmax (%) 【不包含就删除掉,以便接下来的操作】
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值