机器学习基础:从数据处理到模型融合
1. 避免过拟合
在机器学习中,过拟合是一个常见的问题。例如,一个机器人可能会学习到一些复杂的规则,像“任何中等身高、不戴眼镜且穿黑色衣服的中年女性是陌生人”“任何身材矮小、不戴眼镜且穿黑色衣服的老年男性是陌生人”,其他则是朋友。这些规则虽然能完美匹配训练数据,但过于复杂,难以推广到新的访客。相比之下,一个更宽松的规则“任何不戴眼镜且穿黑色衣服的人是陌生人”可能对更多访客都适用。
为了避免过拟合,我们可以采取以下方法:
- 正则化 :限制模型的复杂度,避免其过于复杂而无法泛化。但正则化需要保持在适度水平,过小的正则化没有效果,过大则会导致欠拟合。
- 提前停止训练 :限制模型学习的时间或设置内部停止标准,使模型更简单,减少过拟合的可能性。
2. 特征选择与降维
数据通常以矩阵形式表示,每列是一个特征,每行是一个训练或测试示例。特征数量对应数据的维度,高维数据拟合计算成本高,容易过拟合,且难以可视化。
- 特征选择 :并非所有特征都有用,有些可能只是增加结果的随机性。特征选择是挑选重要特征子集以构建更好模型的过程。对于(n)个特征,有(2^n)个特征集。我们可以从所有特征开始迭代移除,或从最小特征集开始迭代添加,然后比较各迭代的最佳特征集。当特征数量很多时,暴力评估不可行,因此需要更高级的特征选择算法。
- 降维 :将高维数据转换为低维空间,也称为特征投影。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



