话不多说,直接上官方链接:Task3:进阶baseline详解 - 飞书云文档 (feishu.cn)
今天的任务主要将鱼佬Task3的代码过一遍(小白用AI辅助)
一、导入模块
import numpy as np # 导入NumPy库,通常用于进行科学计算,这里用来处理多维数组
import pandas as pd # 导入Pandas库,用于数据处理和分析:数据读取,数据转换
from catboost import CatBoostClassifier # 从catboost库中导入CatBoostClassifier类,用于构建分类模型。
from sklearn.model_selection import StratifiedKFold, KFold, GroupKFold # 从sklearn库的model_selection模块中导入StratifiedKFold, KFold, GroupKFold类,用于交叉验证。
from sklearn.metrics import f1_score # 从sklearn库的metrics模块中导入f1_score函数,用于计算F1分数。
# rdkit是一个开源化学信息学软件库,用于处理化学分子和相关数据。(在Task2官方文档有指引)
from rdkit import Chem # 从rdkit库中导入Chem模块,用于处理化学信息。
from rdkit.Chem import Descriptors # 从rdkit.Chem模块中导入Descriptors类,用于获取化学分子的描述性特征。
from sklearn.feature_extraction.text import TfidfVectorizer # 从sklearn库的feature_extraction.text模块中导入TfidfVectorizer类,用于文本数据的TF-IDF向量化。
import tqdm, sys, os, gc, re, argparse, warnings # 导入tqdm, sys, os, gc, re, argparse, warnings模块,分别用于进度条、系统接口、文件操作、垃圾回收、正则表达式、命令行参数解析和警告控制。
warnings.filterwarnings('ignore') # 忽略警告信息。
二、数据预处理
train = pd.read_excel('./dataset-new/traindata-new.xlsx') # 使用Pandas的read_excel函数读取训练数据集的Excel文件。
test = pd.read_excel('./dataset-new/testdata-new.xlsx') # 使用Pandas的read_excel函数读取测试数据集的Excel文件。
# test数据不包含 DC50 (nM) 和 Dmax (%) 【不包含就删除掉,以便接下来的操作】
train = train.drop(['DC50 (nM)', 'Dmax (%)'], axis=