- 博客(5)
- 收藏
- 关注
原创 特征工程 -- Feature Engineering!(Kaggle学习教程)
如何进行特征工程 -- Features Engineering;本文通过后面的六个部分来初步来进行介绍
2025-03-25 00:08:13
631
3
原创 如何处理数据类别不平衡的问题
2.改进采样策略 -- 平衡采样(Balanced Batch Sampling)通常阈值定为0.5,但是面对类别不平衡的数据,可以将阈值偏向类别较少的数据的标签。Focal Loss 通过给容易分类的样本较小的权重,让模型更关注难分类的样本。1.数据过采样(Oversampling) -- 增加少类样本的数量。2.标注成本高:罕见类别的人工标注成本高,如医学影像、交通事故数据。①.图像分类:数据旋转、翻转、噪声、颜色变换等来实现数据增强。2.欺诈检测 -- 信用卡欺诈检测、金融反欺诈。
2025-03-19 21:47:41
385
1
原创 Kaggle-泰坦尼克号预测
通过交叉验证来比较多种机器学习算法(MLA)在给定数据集上的性能,并将结果存储在一个表格中,以便后续分析和选择最佳模型。通过以上的自定义树的预测,效果能达到82.04%的准确率,若机器算法的准确率低于该数值,则说明其机器算法效果较差。注意:训练数据使用不同的子集来构建模型,并使用测试数据来评估我们的模型,否则,模型会过拟合。多机器学习模型分类器进行超参数调优,并将优化后的分类器用于投票分类器。1.交叉验证(Cross-Validation)的模型性能。3.2选择被 RFE 选出的特征,并重新训练模型。
2025-03-09 22:43:15
866
原创 归并排序(用python实现)
区别于append()函数,append()函数一般在列表后面增加一个值,而extend()函数是在列表后方增添多个值或者一个列表。但两者的区别是:快速排序是最后调用函数,而归并是一开始调用函数,将列表切割成细小片段,最后拼接起来。归并排序和快速排序时间复杂度均为O(n)=n*logn。用于在列表末尾一次性追加另一个序列中的多个值(用新列表扩展原来的列表)两者均采用分治思想。
2024-03-16 16:14:37
166
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人