使用惩罚线性方法构建预测模型
1. 数据标准化的重要性
在构建预测模型时,对特征矩阵 (X) 进行标准化处理是非常重要的。当特征未标准化时,误差可能会出现不稳定的情况,而标准化后误差会显著下降。标准化可以帮助我们获得更好的模型,因为它使得不同特征在模型中的影响更加公平。
2. 全数据集训练
在模型部署前,通常会在全数据集上进行训练,目的是获得最佳的系数集。交叉验证可以帮助我们估计模型在实际部署中的性能,并确定能使模型性能最优的惩罚参数 (\alpha)。
2.1 代码示例
以下是使用 Lasso 进行全数据集训练的代码:
__author__ = 'mike-bowles'
from Read_Fcns import list_read_wine
import numpy as np
from sklearn import datasets, linear_model
from sklearn.linear_model import LassoCV, lasso_path, Lasso
from sklearn.preprocessing import StandardScaler
from math import sqrt
import matplotlib.pyplot as plt
# 读取数据
names, xList, labels = list_read_wine()
# 查看全数据集的系数曲线并评估特征重要性
# 为了评估特征重要性,需要在拟合前对变量进行标准化
alphas, coefs, _ = lasso_path(Stan
超级会员免费看
订阅专栏 解锁全文
2574

被折叠的 条评论
为什么被折叠?



