
特征工程
文章平均质量分 96
小橙不吃辣椒
我的学习日志
展开
-
特征工程技巧—Bert
前段时间在参加比赛,发现有一些比赛上公开的代码,其中的数据预处理步骤值得我们参考。平常我们见到的都是数据预处理,现在我们来讲一下特征工程跟数据预处理的区别。是指对原始数据进行清洗、转换、缩放等操作,以便为后续的建模或分析任务做准备。这包括处理缺失值、异常值、重复值,以及对数据进行归一化、标准化等操作,使数据适合模型处理。则更侧重于从原始数据中提取、构建或转换特征,以提高模型的性能。这包括特征选择、特征抽取、特征转换等过程。原创 2024-06-03 21:55:41 · 1021 阅读 · 0 评论 -
特征工程技巧——字符串编码成数字序列
class CFG:LR = 1e-3WD = 0.05这里定义了一个名为CFG的类,用于存储一些全局配置参数。这些参数包括是否进行数据预处理、训练时的迭代次数、批量大小、学习率、权重衰减等。NBR_FOLDS表示交叉验证的折数,表示选择参与训练的折数,SEED是随机种子。这里我们表示只选择第一份数据作为验证集,其余14份数据作为训练集。loss=loss,原创 2024-06-03 18:58:20 · 1141 阅读 · 0 评论 -
特征工程技巧——OneHot编码
我们以Kaggle比赛里面的一个数据集跟一个公开代码为例去解释我们的OneHot编码。独热编码的主要优点是它将类别之间的关系消除,使得数据更适合用于机器学习算法,因为它避免了算法误认为类别之间存在顺序或距离关系。原创 2024-05-31 18:57:19 · 897 阅读 · 0 评论