大数据分析 —— 一元回归

目录

一、定义与概念

二、一元线性回归模型 

三、、实验 

1,变量说明 

2,模型的建立

2.1,数据来源: 

 2.2建立一元线性关系:

(1)开发前的准备工作

(2)导入所需的python模块 

 (3)加载csv数据文件,并对数据进行必要的观察和探索。

(4)区分输入及输出数据,其中输入数据为国内生产总值GDP,输出数据为税收值。 

(5)使用构建线性回归模型,并通过样本集对模型进行训练。

模型系数:[[0.16041729]],截距:[88.93231128]

(6)使用均方根误差RMSE对模型进行评价·。 

回归模型RMSE值:[[0.16041729]]

(7)利用matplotlib绘制函数曲线,观察数据点分布。

四、总结 


回归分析是一种重要的数据分析技术,广泛应用于大数据分析中,用以揭示自变量和因变量之间的定量关系。用回归分析算法解决问题时,如果只涉及俩个变量,通过一个变量(自变量)的变化来预测出另一个变量(因变量)的值,那么这种回归称为一元回归。例如在分析税收值时,GDP就是一个重要的因素,如果只考虑GDP的因素,通过GDP来预测税收值,这时就可以用一元回归来进行预测了。这时的GDP就是自变量,而预测出的税收值就是因变量。本篇实例提供某年度各省份国内生产总值GDP及税收数据,需要分析各省份CDP与税间的关系,要求通过一元线性回归算法,建立GDP与税收间的一元线性系,以达成通GDP预测税收值的目标。其中数据文件为ods_prov_gdp_tat_jnfo.csv。

一、定义与概念

  1. 定义:一元回归是只有一个自变量的回归分析,用于研究一个自变量(预测变量或解释变量)与一个因变量之间的依存关系。
  2. 相关关系:在一元回归中,自变量和因变量之间的关系是不确定的,即一个变量的取值不能由另一个变量唯一确定。这种关系被称为相关关系,与函数关系(一一对应的确定关系)相区分。

二、一元线性回归模型 

  1. 模型表示:一元线性回归模型可以表示为y = β0 + β1x + ε,其中y是因变量,x是自变量,β0和β1是模型参数(也称为回归系数),ε是误差项。
  2. 模型参数估计:通常使用最小二乘法来估计模型参数β0和β1,使得观测值与预测值之间的离差平方和最小。
  3. 回归方程:一旦模型参数被估计出来,就可以得到回归方程,用于根据自变量x的值来预测因变量y的值。

三、、实验 

1,变量说明 

字段名类型含义
province_name字符串省份名称
gdp_value数值国内生产总值
tax_value数值税收

2,模型的建立

2.1,数据来源: 

ODS_PROV_GDP_TAX_INFO.csv是一个关于某年度各省份国内生产总值GDP及税收的数据集,该数据集包括31个省份的国内生产总值GDP及税收数据。

 2.2建立一元线性关系:

(1)开发前的准备工作

确保本机已安装Anaconda3-5.1.0及以上版本,准备本地数据文件 ods_prov _gdp_tax info. csv,运行 Jupyter Notebeok程序,在 Web浏览器中新建 Pythons文件。 

如果代码无法正常运行使用pip install numpy pandas matplotlib scikit-learn命令在Python环境中安装几个非常流行的科学计算和机器学习库。(numpy、pandas、matplotlib、scikit-learn

在命令行(Windows的cmd、PowerShell,macOS和Linux的终端)中,输入以下命令可以一次性安装上述所有库:

pip install numpy pandas matplotlib scikit-learn
(2)导入所需的python模块 
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression  
from sklearn.metrics import mean_squared_error
 (3)加载csv数据文件,并对数据进行必要的观察和探索。
dataset = pd.read_csv(r"C:\Users\Administrator\Desktop\ODS_PROV_GDP_TAX_INFO.csv",encoding="gb2312")
dataset.head()

     

一元线性回归实例中加载csv数据文件 

dataset.info()
dataset.describe()

 

 一元线性回归实例中查看数据基本情况

(4)区分输入及输出数据,其中输入数据为国内生产总值GDP,输出数据为税收值。 
x =dataset[["gdp_value"]].values
y =dataset[["tax_value"]].values
(5)使用构建线性回归模型,并通过样本集对模型进行训练。
model = LinearRegression()
model.fit(x,y)
print("模型系数:{},截距:{}".format(model.coef_,model.intercept_))

模型系数:[[0.16041729]],截距:[88.93231128]

(6)使用均方根误差RMSE对模型进行评价·。 
y_pred=model.predict(x)
print("回归模型RMSE值:{}".format(model.coef_,model.intercept_))

回归模型RMSE值:[[0.16041729]]


(7)利用matplotlib绘制函数曲线,观察数据点分布。
plt.plot(x, y, 'b.')
plt.plot(x, y_pred, 'r')
plt.xlabel("gdp_value")
plt.ylabel("tax_value")
plt.grid(True)
plt.show

https://pan.lzzy.net/

四、总结 

本文展示了一个关于“大数据分析——一元回归”的内容。详细介绍了一元回归模型的定义与概念,指出一元线性回归模型是用于研究一个自变量(预测变量或解释变量)与因变量之间关系的回归分析。当模型参数被估计出来后,可以得到回归方程,用于根据自变量的值来预测因变量的值。

此外,本文还展示了实验部分的内容,包括变量说明和模型的建立。在变量说明中,提到了省份名、GDP值和税收值等变量。模型的建立部分则涉及了数据来源、数据加载、数据描述以及区分输入及输出数据等步骤。其中,输入数据为国内生产总值GDP,输出数据为税收值。

同时,本文还包含了相关的图表,这些图表展示了不同变量之间的关系,并提供了相关的数值信息,有助于更好地理解和分析一元回归模型。

                                                                                                                                                                                                                                                                                                                 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值