回归算法:是一种有监督 的算法。
回归算法是一种比较常用的机器学习算法,用来表示自变量X和因变量Y之间的关系。从机器学习的角度,构建一个算法模型来做属性X与标签Y之间的映射关系。
普通最小二乘法线性回归案例
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
#设置字符集,防止中文乱码
mpl.rcParams[‘font.sans-serif’] = [u’simHei’]
mpl.rcParams[‘axes.unicode_minus’] = False
#加载数据
path = ‘./datas/household_power_consumption_1000.txt’
df = pd.read_csv(path,sep=’;’)
print(df.head())
#获取功率值作为特征属性X,电流作为目标属性Y
X = df.iloc[:,2:4] # 获取功率值:行和列
print(X.head())
Y = df.iloc[:,5] # 获取电流值
#print(Y)
#获取训练数据和测试数据
n = int(X.shape[0] * 0.8)
train_x = np.array(X[:n])
test_x = np.array(X[n:])
train_y = np.array(Y[:n])
test_y = np.array(Y[n:])
print(“总样本的数量:{},训练样本的数量:{},测试样本的数量:{}”.format(X.shape,train_x.shape,test_x.shape))
#训练模型
a. 训练数据转换为矩阵的形式
x = np.mat(train_x) # 将x转换成一个