分子AI预测赛Task3笔记-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_56181660/article/details/140163856

话不多说，直接上官方链接：‌‍⁠‌‍‌⁠‬‬‌‬‬‍⁠‍‌⁠Task3：进阶baseline详解 - 飞书云文档 (feishu.cn)

今天的任务主要将鱼佬Task3的代码过一遍（小白用AI辅助）

一、导入模块

import numpy as np  # 导入NumPy库，通常用于进行科学计算，这里用来处理多维数组
import pandas as pd  # 导入Pandas库，用于数据处理和分析：数据读取，数据转换
from catboost import CatBoostClassifier  # 从catboost库中导入CatBoostClassifier类，用于构建分类模型。
from sklearn.model_selection import StratifiedKFold, KFold, GroupKFold  # 从sklearn库的model_selection模块中导入StratifiedKFold, KFold, GroupKFold类，用于交叉验证。
from sklearn.metrics import f1_score  # 从sklearn库的metrics模块中导入f1_score函数，用于计算F1分数。
# rdkit是一个开源化学信息学软件库，用于处理化学分子和相关数据。（在Task2官方文档有指引）
from rdkit import Chem  # 从rdkit库中导入Chem模块，用于处理化学信息。
from rdkit.Chem import Descriptors  # 从rdkit.Chem模块中导入Descriptors类，用于获取化学分子的描述性特征。
from sklearn.feature_extraction.text import TfidfVectorizer  # 从sklearn库的feature_extraction.text模块中导入TfidfVectorizer类，用于文本数据的TF-IDF向量化。
import tqdm, sys, os, gc, re, argparse, warnings  # 导入tqdm, sys, os, gc, re, argparse, warnings模块，分别用于进度条、系统接口、文件操作、垃圾回收、正则表达式、命令行参数解析和警告控制。
warnings.filterwarnings('ignore')  # 忽略警告信息。

二、数据预处理

train = pd.read_excel('./dataset-new/traindata-new.xlsx')  # 使用Pandas的read_excel函数读取训练数据集的Excel文件。
test = pd.read_excel('./dataset-new/testdata-new.xlsx')   # 使用Pandas的read_excel函数读取测试数据集的Excel文件。

# test数据不包含 DC50 (nM) 和 Dmax (%) 【不包含就删除掉，以便接下来的操作】
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=