吴恩达机器学习笔记(3)非线性问题

最新推荐文章于 2023-10-31 15:31:30 发布

Peggy-haha

最新推荐文章于 2023-10-31 15:31:30 发布

阅读量330

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/u014202086/article/details/77001776

机器学习专栏收录该内容

3 篇文章

订阅专栏

非线性问题-多项式

假设一个线性不可分问题，我们可能设计分类界面如下：
$g (θ) = θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 1 x 2 + θ 4 x 21 x 2 + . . .$ $g(\theta)=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1x_2+\theta_4x_1^2x_2+...$
对于一个n维特征问题，只考虑两个参数相乘的情况，则相加的项的数目为 $O(n^2)$ 。模型太复杂并且易于过拟合

神经网络

神经网络的目标函数

盛行于80s和90s。参照逻辑回归的代价函数，神经网络的代价函数如下，K为类别数， $(h_\theta(x))_i$ 为第i个输出，m为样本数

J (θ) = 1 m [\sum i = 1 m \sum k = 1 K y i k l o g (h θ (x (i))) k + (1 - y i k) l o g (1 - (h θ (x (i)) k)] + λ 2 m \sum l = 1 L \sum i = 1 s l \sum j = 1 s l + 1 (θ (l) j i) 2

$J(\theta)=\frac{1}{m}[\sum_{i=1}^m\sum_{k=1}^{K}{y_k^ilog(h_\theta(x^{(i)}))_k+(1-y_k^i)log(1-(h_\theta(x^{(i)})_k)}]+\frac{\lambda}{2m}\sum_{l=1}^L\sum_{i=1}^{s_l}\sum_{j=1}^{s_l+1}(\theta_{ji}^{(l)})^2$
(9-2)推导bp的梯度

θ j i : = θ j i - α J ( θ ) α θ j i

$\theta_{ji}:=\theta_{ji}-\frac{\alpha J(\theta)}{\alpha \theta_{ji}}$
简化目标函数为：

(y i k - h θ (x (i)) k) 2

$(y_k^i-h_\theta(x^{(i)})_k)^2$

网络结构和参数设置

以四层网络为例：
$a (1) (= x) - > z (2), a (2) - > z (3), a (3) - > z (4), a (4)$ $a^{(1)}(=x)->z^{(2)},a^{(2)}->z^{(3)},a^{(3)}->z^{(4)},a^{(4)}$
$\theta^{(l)}$ 为第l-1层到第l层的参数， $a_0^{(l)}$ 为第l层的偏置参数

前向和反向计算

前向
第1层： $a^{(1)}=x$
第2层： $z^{(2)}=\theta^{(1)}a^{(1)}, a^{(2)}=g(z^{(2)})+a^{(2)}_0$
第3层： $z^{(3)}=\theta^{(2)}a^{(2)}, a^{(3)}=g(z^{(3)})+a^{(3)}_0$
第4层： $z^{(4)}=\theta^{(3)}a^{(3)}, a^{(4)}=g(z^{(4)})$
反向
$\delta^{(l)}_j$ 表示第l层第j个节点的error
第4层： $\delta^{(4)}=a^{(4)}-y$
第3层： $\delta^{(3)}=(\theta^{(3)})^T\delta^{(4)}.*g^{'}(z^{(3)})$
第2层： $\delta^{(2)}=(\theta^{(2)})^T\delta^{(3)}.*g^{'}(z^{(2)})$
训练
设置: 对于所有的 $\{i, j, l\}$ . 初始化 $\Delta_{ij}^{(l)}=0$
计算每一层的 $\delta$ ，更新：
$Δ (l) i j : = Δ (l) i j + a (l) j δ (l + 1) i$ $\Delta_{ij}^{(l)}:=\Delta_{ij}^{(l)}+a_j^{(l)}\delta_i^{(l+1)}$
计算 $D_{ij}^l$ :
$D l i j = 1 m Δ (l) i j + λ θ (l) i j, i f j \neq 0$ $D_{ij}^l=\frac{1}{m}\Delta_{ij}^{(l)}+\lambda \theta_{ij}^{(l)}, if j \neq 0$
$D l i j = 1 m Δ (l) i j, i f j = 0$ $D_{ij}^l=\frac{1}{m}\Delta_{ij}^{(l)}, if j = 0$
则：
$a a θ ( l ) i j J (θ) = D l i j$ $\frac{a}{a\theta_{ij}^{(l)}}J(\theta)=D_{ij}^l$
learning curves

横坐标为训练集的大小(train_set_size)，做坐标为错误率(error rate)