sklearn之岭回归

最新推荐文章于 2025-02-16 08:33:22 发布

xiao黄

最新推荐文章于 2025-02-16 08:33:22 发布

阅读量667

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习算法基础文章标签： python sklearn 机器学习

本文链接：https://blog.youkuaiyun.com/Python_Matlab/article/details/103378681

机器学习算法基础专栏收录该内容

11 篇文章

订阅专栏

本文深入探讨了岭回归（Ridge Regression）在特征数量超过样本数量时的处理方法，介绍了如何通过选择合适的λ值来确保回归系数的稳定性并控制残差平方和的增长。通过使用sklearn库的RidgeCV模型，我们演示了如何在Python中实现岭回归，并通过实例展示了λ值与损失值之间的关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

岭回归（Ridge Regression）
如果数据的特征比样本点还多，数据特征n，样本个数m，如果n>m，则计算（XTX）的逆矩阵时会出错，因为（XTX）不是满秩矩阵，所以不可逆。（注：XT表示X的转置矩阵）

岭回归是有偏估计
岭回归代价函数这里就不贴了

选取λ值使得：
1.各回归系数的岭估计基本稳定；
2.残差平方和增大不多。

import numpy as np
from numpy import genfromtxt
from sklearn import linear_model
import matplotlib.pyplot as plt

# 导入数据
data = np.genfromtxt("C:\\ML\\chapter-1\\longley.csv",delimiter=",") # 这种方法只能读取数字，不能读取字符，字符会变成nan
print(data)

# 切分数据
x_data = data[1:,2:]
y_data = data[1:,1]
print(x_data)
print(y_data)

# 创建模型
# 生成50个值
alphas_to_test = np.linspace(0.001,1) # 默认是50，均匀变大
# 创建模型，保存误差值
model = linear_model.RidgeCV(alphas=alphas_to_test,store_cv_values=True)
model.fit(x_data,y_data)

# 岭系数
print(model.alpha_)
# loss值
print(model.cv_values_.shape)

# 画图
# 岭系数跟loss值的关系
plt.plot(alphas_to_test,model.cv_values_.mean(axis=0)) # axis=0代表方向
# 获取的岭系数值的位置
plt.plot(model.alpha_,min(model.cv_values_.mean(axis=0)),'ro')
plt.show()

print(model.predict(x_data[2,np.newaxis])) # x_data的带三行数据，是一维的，np.newaxis将其变为二维的，得到预测结果