目录
#学习记录#
1 概述
1.1 欠拟合
现象: 欠拟合发生时,模型在训练集上的表现并不理想。这意味着模型的预测值与实际值之间存在较大的误差。简而言之,模型未能有效学习到数据中的关键模式。
产生原因: 通常,欠拟合是由于模型过于简单所致。当模型没有足够的参数或者考虑的特征太少时,它就难以捕捉数据中复杂的结构和关系。
解决方案:
- 增加模型复杂度: 选择更复杂的模型可以帮助模型更好地学习和理解数据的特点。
- 引入更多特征: 包括新增的或者已有相关特征,可以增强模型的学习能力。
- 特征工程: 通过创建新特征,如多项式扩展,可以提供更多的信息,帮助模型学习。
- 模型迭代: 增加迭代次数可以让模型有更多的学习机会,直到它找到更好的数据拟合方式。
1.2 过拟合
现象: 过拟合是指模型在训练集上表现出色,但在未知数据集(比如验证集或测试集)上表现不佳。这表明模型过度学习了训练数据的特性,包括一些不具代表性的噪声。
产生原因: 过拟合通常发生在模型过于复杂,参数过多时。这种情况下,模型不仅学习了数据的一般特征,还学习了数据中的随机噪声。
解决方案:
- 增加数据量: 更多的数据可以提供更广泛的样本特征,减少噪声的影响。
- 降低模型复杂度: 使用更简单的模型或减少模型参数可以减少过拟合的风险。
- 特征选择: 删除不相关或噪声较大的特征,专注于最重要的特征。
- 正则化技术: 如L1或L2正则化,可以惩罚模型中过于复杂的部分。
- Early Stopping: 在验证误差开始增加时停止训练,防止模型过度拟合训练数据。
很明显,图一可以看到欠拟合,而图四过拟合
2 多项式扩展
2.1 多项式拓展规则
简介: 多项式拓展是一种通过生成新特征将数据从低维空间映射到高维空间的技术。这种转换可以使模型能够拟合更复杂的数据模式。
规则: 设原始数据的特征为输入特征,多项式扩展生成的特征为输出特征。假设进行n阶扩展,则遵循以下规则:
-
<