前言
线性回归:在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
皮尔逊相关系数:在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
实例
在一次实例分析中,需要收集多个特征因素,通过皮尔逊相关系数,剔除相关性较差的因素后,进行建模;
date:日期 time:星期几 tem:历史温度 y:营业额 tc:总单数 viptc:会员单数
先导一波库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
绘制散点图,并观察相关性
data_df=pd.read_csv(a)
print(data_df.head())
sns.pairplot(data_df,size=1)
plt.show()