神经网络与深度学习课程笔记（一）

最新推荐文章于 2024-06-12 02:30:42 发布

原创最新推荐文章于 2024-06-12 02:30:42 发布 · 120 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #机器学习

本文介绍了神经网络与深度学习的基础，包括线性回归、线性二分类问题、对数回归和多分类回归。讲解了线性回归的代价函数和求解方法，以及线性分类器与线性回归的区别。接着引入了Sigmoid函数在二分类问题中的应用，并概述了多层感知机和BP算法在解决线性不可分问题上的作用。

线性回归

线性回归要素：训练集、输出数据和模型。

假设线性函数可表示为：

$y=hθ(x)=θTxθ=[θ1,θ2,...θn]T,x=[x1,x2,...xn]Ty=h_{\theta}(x)=\theta^T x\\\theta=[\theta_1,\theta_2,...\theta_n]^T,x=[x_1,x_2,...x_n]^T$

给定样本 $x^{(i)},y^{(i)})$ ，构造代价(误差、损失)函数为：

$J(θ)=12∑i=1m(y(i)−hθ(x(i)))2J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-h_{\theta}(x^{(i)}))^{2}$

线性回归的目标是找到超平面参数 $θ\theta$ ，使 $J(θ)J(\theta)$ 最小，即求解 $minθJ(θ)min_{\theta}J(\theta)$

令 $∂J(θ)∂θ=0\frac{\partial J( \theta ) } { \partial \theta } = 0$ ，即可得到： $θ=(XTX)−1XTy\theta = ( X ^ { T } X ) ^ { - 1 } X ^ { T } y$ ，其中：

$\left[ \begin{array} { l } { ( x ^ { ( 1 ) } ) ^ { T } } \\ { ( x ^ { ( 2 ) } ) ^ { T } } \\...\\ { ( x ^ { ( N ) } ) ^ { T } } \end{array} \right] , y = \left[ \begin{array} { l } { y ^ { ( 1 ) } } \\ { y ^ { ( 2 ) } } \\ ... \\{ y ^ { ( N ) } } \end{array} \right]$

线性二分类问题

线性分类器的输入是特征向量，输出是哪一类。如果是二分类问题，则为0和1，或者是属于某类的概率，即0-1之间的数。

与线性回归差别：

输出意义不同

属于某类的概率<->回归具体值

参数意义不同

最佳分类直线<->最佳拟合直线

维度不同

对于线性二分类问题，我们最终需要概率，结果在0-1之间，因此需要对值做一个变换：

$\frac { 1 } { 1 + e ^ { - z } }\\z=\theta^T x$

此函数称为Sigmoid函数。

同样地，可构造代价（误差）函数：

$J(θ)=12∑i=1m(y(i)−11+e−θTx(i))2J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\frac{1}{1+e^{-\theta^Tx^{(i)}}})^{2}$

和回归方程一致，只是加了S函数，因此又称作softmax回归。

目标仍然是找到超平面参数 $θ\theta$ ，使 $J(θ)J(\theta)$ 最小，但是这里 $J$ 变成了非线性， $∂J(θ)∂θ=0\frac{\partial J( \theta ) } { \partial \theta } = 0$ 无法求解。

采用迭代的方法，让 $\theta ) \rightarrow 0$ ，即构建一个序列，使 $θ1,θ2,⋯θk→θ∗\theta _ { 1 } , \theta _ { 2 } , \cdots \theta _ { k } \rightarrow \theta ^ { * }$ ，最简单的方式为：