多元统计分析多元线性回归 python代码实现简单线性回归

最新推荐文章于 2025-01-21 13:44:40 发布

原创

最新推荐文章于 2025-01-21 13:44:40 发布 · 9.2k 阅读

125 ·

CC 4.0 BY-SA版权

文章标签：

#python

因变量Y(或Y1 , …,Yp )与x1 ,x2 ,…,xm的回归方程：

$Y=f(x_{1},x_{2},...,x_{m})=a_{0}+a_{1}x_{1}+a_{2}x_{2}+...+a_{m}x_{m}+\varepsilon$

数据导入与清洗

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

pd_data = pd.read_csv("xxxx.csv")   #可用read_csv导入数据

利用numpy和pandas对数据进行操作

利用matplotlib将数据图像化

利用sklearn导入数据集训练和模型

多元线性回归


#清洗不需要的数据
new_pd_data = pd_data.ix[:,1:]
#数据描述
print(new_pd_data.describe())
#缺失值检验
print(new_pd_data[new_pd_data.isnull()==True].count())



#R方检测
#决定系数r平方
#对于评估模型的精确度
#y误差平方和 = Σ(y实际值 - y预测值)^2
#y的总波动 = Σ(y实际值 - y平均值)^2
#有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
#有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
#对于决定系数R平方来说
#1） 回归线拟合程度：有多少百分比的y波动刻印有回归线来描述(x的波动变化)
#2）值大小：R平方越高，回归模型越精确(取值范围0~1)，1无误差，0无法完成拟合

数据清洗、预测等与简单线性回归类似

简单线性回归

创建简单模型

#创建数据集
examDict  = {'worktime':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
             'output':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]}
 
#转换为DataFrame的数据格式
e