22 平衡偏差与方差
22.1 偏差-方差权衡简介
在模型构建中,我们通常面临偏差(bias)与方差(variance)之间的权衡。偏差是指模型的预测与真实值之间的系统性误差,而方差则是指模型在不同训练集上的波动性。
高偏差通常意味着模型过于简单,无法捕捉数据中的复杂模式(即欠拟合);高方差则意味着模型对训练数据过于敏感,导致在新数据上表现不佳(即过拟合)。
22.2 正则化与偏差-方差权衡
通过引入正则化项,可以有效控制模型的方差。例如,在线性回归中,我们可以使用岭回归(L2 正则化)或Lasso回归(L1 正则化)来平衡偏差和方差。
在Python中,scikit-learn
提供了相关的正则化工具。
from sklearn.linear_model import Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np
# 生成模拟数据
np.random.seed(42)
X = np.random.randn(100, 10)
y = np.do