机器学习之神经网络算法

最新推荐文章于 2024-09-12 12:07:50 发布

原创最新推荐文章于 2024-09-12 12:07:50 发布 · 740 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #神经网络

机器学习专栏收录该内容

1 篇文章

订阅专栏

本文主要记录线性回归、逻辑回归和神经网络算法的基本思想及用实现过程。

简单回顾：

机器学习的主要组成部分：输入、算法、输出、训练集；核心思想：通过训练集数据优化算法的参数，以提升对未知输入的输出预测精度。这一算法优化过程被形象的描述为学习。

一、最基础的机器学习就是线性回归和逻辑回归了。

1.线性回归

输入（features）：

x 1, x 2, . . ., x n

$x_{1} ,x_{2},...,x_{n}$
假设函数（hypothesis function）:

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n

$h_{\theta}(x) = \theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta_{n}x_{n}$
误差函数（cost function）：

J (θ) = 1 2 m \sum i = 1 n (h θ (x i) - y i) 2

$J(\theta) = \frac{1}{2m}\sum_{i = 1 }^{n}( h_{\theta}(x_{i})-y_{i})^2$
为使误差函数值最小，用梯度下降（gradient descent）多次迭代计算合适的

θi $\theta_{i}$ :

θ i = θ i - α \partial \partial θ i J (θ)

$\theta_{i} = \theta_{i} - \alpha \frac{\partial}{\partial \theta_{i}}J(\theta)$
即

θ j = θ j - α 1 m \sum i = 1 n (y i - h θ (x i)) x (i) j

$\theta_{j} = \theta_{j} - \alpha \frac{1}{m}\sum_{i =1 }^{n}(y^{i} - h_{\theta}(x^i))x_{j}^{(i)}$
由于不同的特征值（输入）取值范围趋于一致时可以加快梯度递减，所以可以对特征值进行适当缩放或标准化：

x = x - u s

$x = \frac{x - u}{s}$

2.逻辑回归

逻辑回归亦可称为分类问题。首先从简单的二元逻辑回归入手，即输出 $y = \left\{ 0, 1 \right\}$ 可以看做是线性回归基础上的变异，用sigmoid函数 $h_{\theta}(x) = \frac{1}{1+e^{g(z)}}$ 对线性回归的输出估计值进行了归一化处理， $h_{\theta}(x)\in(0,1)$ 。

误差函数的形式与线性回归的不同，但是思想还是一致的，

J (θ) = - 1 m \sum i = 1 m [y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))]

$J(\theta) = - \frac{1}{m} \displaystyle \sum_{i=1}^m [y^{(i)}\log (h_\theta (x^{(i)})) + (1 - y^{(i)})\log (1 - h_\theta(x^{(i)}))]$
计算合适的

θi $\theta_{i}$ 用的还是上面相同的梯度下降法。

过拟合的问题：训练完的算法对训练集中的数据预测过于精准，使得函数对未知的输入出现较大的预测误差。

解决方法：正则化

正则化的线性回归：

J (θ) = 1 2 m \sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j

$J(\theta)= \dfrac{1}{2m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda\ \sum_{j=1}^n \theta_j^2$

Repeat {θ 0 : = θ 0 - α 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) 0 θ j : = θ j - α [(1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j) + λ m θ j]} j \in {1, 2... n}

$\begin{align*} & \text{Repeat}\ \lbrace \newline & \ \ \ \ \theta_0 := \theta_0 - \alpha\ \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_0^{(i)} \newline & \ \ \ \ \theta_j := \theta_j - \alpha\ \left[ \left( \frac{1}{m}\ \sum_{i=1}^m (h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)} \right) + \frac{\lambda}{m}\theta_j \right] &\ \ \ \ \ \ \ \ \ \ j \in \lbrace 1,2...n\rbrace\newline & \rbrace \end{align*}$
正则化的逻辑回归：

J (θ) = - 1 m \sum i = 1 m [y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))] + λ 2 m \sum j = 1 n θ 2 j

$\begin{align*} & J(\theta) = &- \frac{1}{m}\sum_{i=1}^m \large[ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log(1 - h_\theta(x^{(i)}))\large] & +\frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2 \end{align*}$

3.神经网络算法
神经网络算法虽然称得上是非线性算法，但是究其局部而言还是运用了线性回归的思维方式。

误差函数：

J (Θ) = - 1 m \sum i = 1 m \sum k = 1 K [y (i) k log ((h Θ (x (i))) k) + (1 - y (i) k) log (1 - (h Θ (x (i))) k)] + λ 2 m \sum l = 1 L - 1 \sum i = 1 s l \sum j = 1 s l + 1 (Θ (l) j, i) 2

$\begin{gather*} J(\Theta) = &- \frac{1}{m}\sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] &+ \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}$
实现步骤：
（1）为初始的权重赋以随机化的值
（2）用前向传递算法计算