训练模型学习

解说:线性回归模型中训练模型的方法如下:

  • 通过“闭式”方程,直接计算出最拟合训练集的模型参数(也就是使训练集上的成本函数最小化的模型参数)。

  • 使用迭代优化的方法,即梯度下降(GD),逐渐调整模型参数直至训练集上的成本函数调至最低,最终趋同于第一种方法计算出现的模型参数。

多项式回归模型,更适合非线性数据集。由于该模型的参数比线性模型更多,因此更容易造成对训练数据过拟合,我们将学习曲线来分辨这种情况是否发生。最后分类任务的模型分为Logistic回归和Softmax回归。

一、线性回归

1. 回归模型

公式1.1:线性回归模型预测

\check{y}=\theta _{0}+\theta _{1}x _{1}+\theta _{2}x_{2}+....+\theta _{n}x_{n}

在此等式中:

  • \check{y}是预测值
  • n是特征数量
  • x _{1}是第i个特征值
  • \theta是第j个模型参数(包括偏差项\theta _{0}和特征权重\theta _{1}\theta _{2},.....,\theta _{n}

公式1.2:线性回归模型预测(向量化形式)

\check{y}=h_{\theta }\left ( x\right )=\theta·x

在此等式中:

  • \theta是模型的参数向量,其中包含偏差项\theta0和特征权重\theta1至\thetan
  • x是实例的特征向量,包含从x_{0}x_{n}x_{0}始终等于1
  • \theta·x是向量\thetax的点积,它当然等于\theta _{0}x_{0}+\theta _{1}x_{1}+...+\theta _{n}x_{n}
  • h_{\theta }是假设函数,使用模型参数\theta

2.标准方程

公式:

\hat{\theta }=\left ( X^{T}X \right )^{-1}X^{^{T}}y

  • \hat{\theta }是使成本函数最小的\theta
  • y是包含y^{\left ( 1 \right )}y^{\left ( m \right )}的目标向量

生成一些线性数据来预测这个公式:

import numpy as np
X = 2 * np.random.rand(100,1)
y = 4 + 3 * X + np.random.randn(100,1)

使用Scikit-Learn执行线性回归很简单:

from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(X,y)
lin_reg.intercept_,lin_reg.coef_

lin_reg.predict(X_new)

三、线性回归x_{1},x_{2}...是需要利用的特征(数据),y是需要最终得到的结果(标签)

Y = x_{1} \theta _{1}+x_{2} \theta _{2}

拟合的平面:h_{\theta }\left ( x \right )=\theta _{0}+\theta _{1}x_{1}+\theta _{2}x_{2}

(\theta _{0}是偏置项,微调;\theta _{1}\theta _{2}是权重项)

整合:h_{\theta }\left ( x \right )=\sum_{i=0}^{n}\theta _{i}x_{i}=\theta ^{T}x

二、线性回归误差:真实值和预测值之间肯定是要存在差异的(用\varepsilon来表示该误差)

1.对于每个样本:y^{i}=\theta ^{T}x ^{i}+\varepsilon ^{i}

解析:

y^{i}:相当于真实值

\theta ^{T}x ^{i}:相当于预测值

\varepsilon ^{i}:误差项

误差\varepsilon ^{i}是独立并且具有相同的分布,并且服从均值为0方差和\theta ^{2}的高斯分布

独立:张三和里斯一起来贷款,他俩没关系

同分布:他俩都来得是我们假定的这家银行

高斯分布:银行可能会多给,也可能会少给,但绝大多数请款下这个幅度不会太大,极小情况下浮动会比较大,符合正常情况

预测值与误差:y^{i}=\theta ^{T}x ^{i}+\varepsilon ^{i}

误差服从高斯分布

似然函数:什么样的参数跟我们的数据组合后恰好是真实值,让似然函数(对数变换后也一样)越大越好

对数似然:乘法难解,假发就容易了,对数里面的乘法可以转换成加法

最小二乘法越小越好

偏导等于0:\theta =\left ( X^{T}X \right )^{-1}X^{T}y

2.梯度下降

目标函数:J\left (\theta _{0}, \theta _{1}\right )=\frac{1}{2m}\sum_{i=1}^{m}\left ( h^{\theta }x^{\left ( i \right )}-y^{\left ( i \right )}\right )

下山分几步走呢?(更新参数)

(1)找到当前最合适的方向

(2)走那么一小步,走快了该“跌倒”了

(3)按照方向与步伐去更新我们的参数

学习率(步长):对结果会产生巨大的影响,一般小一些

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值