因变量Y(或Y1 , …,Yp )与x1 ,x2 ,…,xm的回归方程:
数据导入与清洗
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
pd_data = pd.read_csv("xxxx.csv") #可用read_csv导入数据
利用numpy和pandas对数据进行操作
利用matplotlib将数据图像化
利用sklearn导入数据集训练和模型
多元线性回归
#清洗不需要的数据
new_pd_data = pd_data.ix[:,1:]
#数据描述
print(new_pd_data.describe())
#缺失值检验
print(new_pd_data[new_pd_data.isnull()==True].count())
#R方检测
#决定系数r平方
#对于评估模型的精确度
#y误差平方和 = Σ(y实际值 - y预测值)^2
#y的总波动 = Σ(y实际值 - y平均值)^2
#有多少百分比的y波动没有被回归拟合线所描述 = SSE/总波动
#有多少百分比的y波动被回归线描述 = 1 - SSE/总波动 = 决定系数R平方
#对于决定系数R平方来说
#1) 回归线拟合程度:有多少百分比的y波动刻印有回归线来描述(x的波动变化)
#2)值大小:R平方越高,回归模型越精确(取值范围0~1),1无误差,0无法完成拟合
数据清洗、预测等与简单线性回归类似
简单线性回归
创建简单模型
in
#创建数据集
examDict = {'worktime':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
'output':[10,22,13,43,20,22,33,50,62,48,55,75,62,73,81,76,64,82,90,93]}
#转换为DataFrame的数据格式
e

最低0.47元/天 解锁文章
6735

被折叠的 条评论
为什么被折叠?



