数据读取
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
在csv数据干净整洁,数据规整无误的情况下,是可以直接进行读取的。
import pandas as pd
df = pd.read_csv('C:\\Users\\TD\\Desktop\\项目\\mite_xy.csv')
df = pd.read_csv('C:/Users/TD/Desktop/项目/mite_xy.csv')
df = pd.read_csv('C://Users//TD//Desktop//项目//mite_xy.csv')
df.head(n=1)
x1 y x2 x3
0 0.2 0.1 0.2 0.1
数据集的划分
数据集的划分和X和Y的区分
data.head(n=1)
data.iloc[:,1] # 提取第一列数据
data[0:2] # 提取两行数据
print (data.iloc[[0,2],[1,2]]) #自由选取行位置和列位置对应的数据切片
X= data[['x1','x2','x3']] #选取列名为x1,x2,x3的列作为X
Y= data[['y']] #选取列名为y的作为Y.
##对上述的X和Y进行划分为3和7
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=42)
建立回归模型
reg_bos = linear_model.LinearRegression()
mode= reg_bos.fit(X_train, y_train) #用训练集数据进行X和Y的回归