机器学习-线性回顾-优快云博客

本文链接：https://blog.youkuaiyun.com/h15366059/article/details/140929520

线性回归

线性回归

线性回归

1. 简介

"""
简介:
	定义:
		利用回归方程对一个或多个自变量(特征值)和因变量(目标值)之间关系 进行建模的一种分析方式
	公式:
		见下图
	分类:
		一元线性回归:
			目标值与一个因变量有关系
		多远线性回归:
			目标值与多个因变量有关系
"""

线性回归公式. 见下图
在这里插入图片描述

2. 线性回归问题求解

"""
线性回归API:
	from sklearn.linear_model import LinearRegression

损失函数:
	误差概念:
		用预测值y-真实值y = 误差
	衡量每个样本预测值与真实值效果的函数
		代价函数, 成本函数, 目标函数
	种类:
		均方误差 MSE
		平均绝对误差 MAE
		均方根误差 RMSE
正规方程法:
	线性回归最小而成损失函数
		J(w)= ||Xw−y||₂² 取值最小
"""
# 1.导入依赖包
# from sklearn.datasets import load_boston # 数据集已废弃
from sklearn.preprocessing import StandardScaler  # 特征处理
from sklearn.model_selection import train_test_split  # 数据集划分
from sklearn.linear_model import LinearRegression  # 正规方程的回归模型
from sklearn.linear_model import SGDRegressor  # 梯度下降的回归模型
from sklearn.metrics import mean_squared_error  # 均方误差评估
from sklearn.linear_model import Ridge, RidgeCV
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

# 正规方程法
def linearRegr():
    """
    正规方程法
    :return:
    """
    # 2.数据预处理
    # 2.1 获取数据
    data_url = "http://lib.stat.cmu.edu/datasets/boston"
    raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
    data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
    target = raw_df.values[1::2, 2]
    # 2.2 数据集划分
    x_train, x_test, y_train, y_test = train_test_split(data, target, random_state=22)
    # 2.3 特征工程-标准化
    transfer = StandardScaler()
    x_train = transfer.fit_transform(x_train)
    x_test = transfer.transform(x_test)
    # 3.模型训练，机器学习-线性回归
    # 3.1 实例化模型(正规方程)
    estimator = LinearRegression()
    # 3.2 模型训练
    estimator.fit(x_train, y_train)
    # 4.模型预测
    y_predict = estimator.predict(x_test)
    print("预测值为:", y_predict)
    print("模型的权重系数为:", estimator.coef_)
    # 5.模型评估，均方误差
    error = mean_squared_error(y_test, y_predict)
    print("误差为:", error)

"""
梯度下降法:
	梯度:
		单变量函数中:
			梯度就是某一点的切线的斜率
			梯度的方向为函数增长最快的方向
		多变量函数中:
			梯度就是某一个点的偏导数
			有方向: 偏导数分量的向量方向
	沿着梯度下降的方向求解极小值
	公式:
		见下图
		α: 学习率(步长)不能太大,也不能太小. 机器学习中：0.001~0.01
		梯度是上升最快的方向, 我们需要是下降最快的方向, 所以需要加负号
	
	梯度下降优化过程:
		1. 给定初始位置 步长(学习率)
		2. 计算该点当前的梯度的负方向
		3. 向该负方向移动步长
			步长决定了在梯度下降迭代过程中, 每一步沿梯度负方向前进的长度
			学习率太小,下降的速度会慢
			学习率太大, 容易造成错过最低点, 产生下降过程中的震荡,甚至梯度爆炸
		4. 重复 2-3 步直至收敛
			两次差距小于指定的阈值
			达到指定的迭代次数
	梯度下降法分类:
		全体度下降算法 FGD
			每次迭代时, 使用全部样本的梯度值
				特点: 训练速度较慢
		随机梯度下降算法 SGD
			每次迭代时, 随机选择并使用一个样本梯度值
				特点: 简单，高效，不稳定
		小批量梯度下降算法 mini-batch
			每次迭代时, 随机选择并使用小批量的样本梯度值
				特点: 表现也正好居于SG 和FG 二者之间
		随机平均梯度下降算法 SAG
			每次迭代时, 随机选择一个样本的梯度值和以往样本的梯度值的均值
				特点: 训练初期表现不佳，优化速度较慢	
"""
from sklearn.preprocessing import StandardScaler  # 特征处理
from sklearn.model_selection import train_test_split  # 数据集划分