[机器学习]Scikit-Learn学习笔记04—线性回归之最小二乘法

本文介绍了线性回归的基础概念,特别是最小二乘法的应用。通过数学推导解释了最小二乘法的目标是使得所有数据偏差的平方和最小。使用Scikit-Learn库中的糖尿病数据集进行了实际的代码实现,包括数据加载、特征选择、数据划分、模型训练和结果评估。最终,通过绘制结果展示了线性回归如何拟合数据以最小化残差平方和。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基础概念
  1. 线性回归是很常见的一种回归,线性回归可以用来预测或者分类,主要解决线性问题。

  2. 线性回归过程主要解决的就是如何通过样本来获取最佳的拟合线。最常用的方法便是最小二乘法,它是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。

  3. “最小二乘法”的核心就是保证所有数据偏差的平方和最小。(“平方”的在古时侯的称谓为“二乘”)

“最小二乘法”数学推导

640?wx_fmt=png

数据集

这里的数据采用Scikit-Learn库中的糖尿病数据集.

代码实现

1) 模块导入

import matplotlib.pyplot as pltimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.metrics import mean_squared_error, r2_score

2) 加载数据

diabetes = datasets.load_diabetes()

3) 取数据集中第一个特征

diabetes_X = diabetes.data[:, np.newaxis, 2]

4) 把数据分为测试数据和训练数据

diabetes_X_train = diabetes_X[:-20]diabetes_X_test = diabetes_X[-20:]

5) 将标签分为训练/测试集合

diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

6) 创建一个线性回归模型

regr = linear_model.LinearRegression()

7) 训练模型

regr.fit(diabetes_X_train, diabetes_y_train)

8) 对测试数据进行测试

diabetes_y_pred = regr.predict(diabetes_X_test)

9) 打印结果信息

#系数print('Coefficients: \n', regr.coef_)#均方差print("均方差: %.2f"
      % mean_squared_error(diabetes_y_test, diabetes_y_pred))#预测print('方差得分: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))#绘制图形plt.scatter(diabetes_X_test, diabetes_y_test,  color='black')
plt.plot(diabetes_X_test, diabetes_y_pred, color='blue', linewidth=3)
plt.xticks(())
plt.yticks(())
plt.show()
打印结果
系数: 
 [938.23786125]均方差: 2548.07方差得分: 0.47
绘制结果

640?wx_fmt=png

图中可以看到直线,显示线性回归如何尝试绘制一条直线,以便最大程度地减小数据集中观察到的响应与线性逼近预测的响应之间的残差平方和。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值