神经网络入门与预测评估
1. 神经网络基础
在处理OCR模型时,神经网络能比手工模型表现得更好。下面我们从简单的逻辑回归开始,逐步了解神经网络的基础。
1.1 逻辑回归作为简单人工神经网络
在之前的学习中,我们将逻辑回归用于二分类问题。具体步骤如下:
- 取一个代表数据样本的特征向量 $x$。
- 先将其与权重矩阵 $W$ 相乘,再加上偏置项 $b$,即 $z = Wx + b$。
- 为了得到介于0和1之间的预测值 $y$,对 $z$ 应用 sigmoid 函数:$y = \sigma(Wx + b)$。
在这里,特征向量 $x$ 可看作一组神经元,通过 $W$ 和 $b$ 与 $y$ 相连。sigmoid 函数可视为激活函数,它将 $Wx + b$ 的结果映射到 $[0,1]$ 范围。若将接近1的值解释为神经元 $y$ 激活,接近0则为未激活,那么这就构成了一个简单的人工神经网络示例。
1.2 多输出维度网络
之前我们将手写数字识别问题简化为二分类问题,即区分数字8和其他数字。但实际上,我们希望对10个数字进行分类预测。为此,我们需要对输出、权重和偏置进行调整:
- 让 $y$ 成为一个长度为10的向量,每个值代表一个数字的可能性:
[
y =
\begin{bmatrix}
y_0 \
y_1 \
\vdots \
y_8 \
y_9
\end{bmatrix}
]
- 将权重矩阵 $W$ 改为维度为 $(10, 784)$ 的矩阵,这样 $W$ 与输入向量
神经网络基础与优化方法
超级会员免费看
订阅专栏 解锁全文
3733

被折叠的 条评论
为什么被折叠?



