重回机器学习----(1、机器学习的一些基本问题)

最新推荐文章于 2024-03-08 15:15:30 发布

原创

最新推荐文章于 2024-03-08 15:15:30 发布 · 624 阅读

2 ·

CC 4.0 BY-SA版权

本文探讨了机器学习中常见的问题，包括样本偏差、连续与离散数据处理、类别特征的Hash技巧、交叉验证集的作用、模型的bias和variance验证方法以及过拟合和欠拟合的解决方案。对于样本偏差，可以通过上采样或下采样平衡数据，改变损失函数。连续数据和离散数据的划分取决于非线性。Hash技巧用于自然语言处理，将文本转化为向量特征。交叉验证集用于参数选择和模型评估，k折交叉验证是常见方法。模型的bias和variance分析能帮助优化模型。过拟合可通过增加样本或正则化解决，欠拟合则需寻找更多特征。bad-case分析有助于改进模型，但在金融市场中具有挑战性。

1.样本偏差问题

所谓样本偏差问题，以二分类问题来说，就是两个类别的样本个数存在很大的区别。比如，我们识别违约的问题，我们知道，一般违约都是小概率的，要不然放贷款的就都玩完了。那么这个时候，训练模型就会有样本偏差的问题，可能一百个样本中只有一个是违约的，如果不做处理，模型肯定更加习惯于判定不违约，因为随便来一个样本，判断不违约的准确率都是99%。

这个问题要分情况来解决，比如如果两者的样本都很大。比如你的数据足够多，上亿级别的，那么一个亿的百分之一是百万，这个级别的数据量其实可以进行下采样。也就是丢掉不违约的样本，让两者样本平衡。

如果发现不行，你的样本量是在是太小了，那么只能进行所谓的上采样。比如，违约样本多重复几次、如果是图片的识别，那么可以进行镜像或者旋转变换。此外，除了在样本上下功夫外，也可以改变损失函数，让损失函数对样本少的情况加大惩罚。