初识线性回归(Excel-Python实现)

最新推荐文章于 2025-09-18 16:25:07 发布

原创最新推荐文章于 2025-09-18 16:25:07 发布 · 189 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #线性回归 #excel

文章介绍了如何在Excel中使用数据分析工具进行线性回归练习，以及在Jupyter环境中通过不借助第三方库的最小二乘法和使用sklearn库重新实现线性回归。对比了两种方法的步骤和结果，强调了sklearn库在简化代码和提高效率上的优势。

文章目录

一、excel中数据分析功能做线性回归练习
二、jupyter编程（不借助第三方库），最小二乘法，重做第1题
三、jupyter编程，借助skleran，重做第1题
总结

一、excel中数据分析功能做线性回归练习

（一）用excel打开下载的身高体重文件夹。
![请添加图片描述](https://img-blog.csdnimg.cn/513cbd6aab364b1c946c3cf274048f3f.png
（二）添加数据分析的工具：
1.文件—更多—选项

点击加载项，后点击跳转，勾选分析工具库和分析工具库—VBA，后点击确定

（三）用excel表完成线性回归
点击数据—数据分析—回归，点击确定

请添加图片描述

选择体重做Y值，身高X值，选取20个数据

请添加图片描述

输入自己适合的输出区域，选择线性拟合图，点击确定
请添加图片描述

双击体重，设置坐标轴格式，点击坐标轴选项，设置最大最小值，间隔单位

请添加图片描述

选择添加趋势线，设置趋势线格式为线性，点击选择显示公式，显示R平方值

请添加图片描述

以同样的方法选择200个数据

请添加图片描述

继续选择2000个数据

请添加图片描述

二、jupyter编程（不借助第三方库），最小二乘法，重做第1题

20组数据和代码

import pandas as pd
import numpy as np
import math
#准备数据
p=pd.read_excel('weights_heights.xls','weights_heights')
#读取20行数据
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 平均值
x_mean = np.mean(x)
y_mean = np.mean(y)
#x（或y）列的总数（即n）
xsize = x.size
zi=((x-x_mean)*(y-y_mean)).sum()
mu=((x-x_mean)*(x-x_mean)).sum()
n=((y-y_mean)*(y-y_mean)).sum()
# 参数a b
a = zi / mu
b = y_mean - a * x_mean
#相关系数R的平方
m=((zi/math.sqrt(mu*n))**2)
# 这里对参数保留4位有效数字
a = np.around(a,decimals=4)
b = np.around(b,decimals=4)
m = np.around(m,decimals=4)

请添加图片描述
200组数据和代码

2000组数据

三、jupyter编程，借助skleran，重做第1题

20组

# 导入所需的模块
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

p=pd.read_excel('weights_heights(身高-体重数据集).xls','weights_heights')
#读取数据行数
p1=p.head(20)
x=p1["Height"]
y=p1["Weight"]
# 数据处理
# sklearn 拟合输入输出一般都是二维数组，这里将一维转换为二维。
y = np.array(y).reshape(-1, 1)
x = np.array(x).reshape(-1, 1)
# 拟合
reg = LinearRegression()
reg.fit(x,y)
a = reg.coef_[0][0]     # 系数
b = reg.intercept_[0]   # 截距
print('拟合的方程为：Y = %.4fX + (%.4f)' % (a, b))
c=reg.score(x,y)    # 相关系数
print(f'相关回归系数为%.4f'%c)

# 可视化
prediction = reg.predict(y)                # 根据高度，按照拟合的曲线预测温度值
plt.xlabel('身高')
plt.ylabel('体重')
plt.scatter(x,y)
y1 = a*x + b
plt.plot(x,y1,c='r')

请添加图片描述
200组

2000组

总结

使用Excel或jupyter都可以解决线性回归问题，并得出大致相同的结果。在Excel中，只需选中数据，系统内部就有预先编写好的算法可以计算相关数据，因此很容易操作。但如果不借助第三方库，在jupyter中自己编程计算相关系数、斜率和截距，则需要设计自己的算法。通过这些计算得到的数据，还可以用来绘制图形以更直观地展示分析结果。当然，如果使用sklearn库，可以直接调用相关函数来进行线性回归分析，大大简化了代码编写的难度。