机器学习09-神经网络表述

最新推荐文章于 2024-09-10 21:39:58 发布

原创最新推荐文章于 2024-09-10 21:39:58 发布 · 872 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #机器学习

机器学习理论同时被 2 个专栏收录

19 篇文章

订阅专栏

深度学习

4 篇文章

订阅专栏

本文探讨了在面对大量特征时，传统线性及逻辑回归方法的局限性，并介绍了神经网络作为一种高效解决方案的基本概念。通过对比，展示了神经网络如何通过多层次的特征抽象实现更复杂的模式识别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一，为什么使用神经网络

我们之前学的，无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大，下面是一个例子：

当我们使用 x1、x2 的多次项式进行预测时，我们可以应用的很好。之前我们已经看到过，使用非线性的多项式项，能够帮助我们建立更好的分类模型。假设我们有非常多的特征，例如大于 100 个变量，我们希望用这 100 个特征来构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便我们只采用两两特征的组合

（x1x2+x1x3+x1x4+...+x2x3+x2x4+...+x99x100）,我们也会有接近 5000 个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。假设我们希望训练一个模型来识别视觉对象（例如识别一张图片上是否是一辆汽车），我们怎样才能这么做呢？一种方法是我们利用很多汽车的图片和很多非汽车的图片，然后利用这些图片上一个个像素的值（饱和度或亮度）来作为特征。假如我们只选用灰度图片，每个像素则只有一个值（而非 RGB 值），我们可以选取图片上的两个不同位置上的两个像素，然后训练一个逻辑回归算法利用这两个像素的值来判断图片上是否是汽车：

假使我们采用的都是 50x50 像素的小图片，并且我们将所有的像素视为特征，则会有2500 个特征，如果我们要进一步将两两特征组合构成一个多项式模型，则会有约 2500²/2 个（接近 3 百万个）特征。普通的逻辑回归模型，不能有效地处理这么多的特征，这时候我们需要神经网络。

二，模型的初步表示

为了构建神经网络模型，我们需要首先思考大脑中的神经网络是怎样的？每一个神经元都可以被认为是一个处理单元/神经核（processing unit/ Nucleus），它含有许多输入/树突（input/Dendrite），并且有一个输出/轴突（output/Axon）。神经网络是大量神经元相互链接并通过电脉冲来交流的一个网络。

神经元利用微弱的电流进行沟通。这些弱电流也称作动作电位，其实就是一些微弱的电流。所以如果神经元想要传递一个消息，它就会就通过它的轴突，发送一段微弱电流给其他神经元，这就是轴突。这里是一条连接到输入神经，或者连接另一个神经元树突的神经，接下来这个神经元接收这条消息，做一些计算，它有可能会反过来将在轴突上的自己的消息传给其他神经元。这就是所有人类思考的模型：我们的神经元把自己的收到的消息进行计算，并向其他神经元传递消息。这也是我们的感觉和肌肉运转的原理。如果你想活动一块肌肉，就会触发一个神经元给你的肌肉发送脉冲，并引起你的肌肉收缩。如果一些感官：比如说眼睛想要给大脑传递一个消息，那么它就像这样发送电脉冲给大脑的。

神经网络模型建立在很多神经元之上，每一个神经元又是一个个学习模型。这些神经元（也叫激活单元，activation unit）采纳一些特征作为输出，并且根据本身的模型提供一个输出。下图是一个以逻辑回归模型作为自身学习模型的神经元示例，在神经网络中，参数又可被成为权重（weight）。我们设计出了类似于神经元的神经网络，效果如下：

其中 x1,x2,x3 是输入单元（input units），我们将原始数据输入给它们。a1,a2,a3 是中间单元，它们负责将数据进行处理，然后呈递到下一层。最后是输出单元，它负责计算 hθ(x)。神经网络模型是许多逻辑单元按照不同层级组织起来的网络，每一层的输出变量都是下一层的输入变量。下图为一个 3 层的神经网络，第一层成为输入层（Input Layer），最后一层称为输出层（Output Layer），中间一层成为隐藏层（Hidden Layers）。我们为每一层都增加一个偏差单位（bias unit）：

对于上图所示的模型，激活单元和输出分别表达为：

上面进行的讨论中只是将特征矩阵中的一行（一个训练实例）喂给了神经网络，我们需要将整个训练集都喂给我们的神经网络算法来学习模型。我们可以知道：每一个 a 都是由上一层所有的 x 和每一个 x 所对应的决定的。（我们把这样从左到右的算法称为前向传播算法( FORWARD PROPAGATION )）

三，模型的完整表示

相对与使用循环来编码，利用向量化的方法会使得计算更为简便。以上面的神经网络为例，试着计算第二层的值：

为了更好了了解 Neuron Networks 的工作原理，我们先把左半部分遮住：

我们可以把 a0,a1,a2,a3 看成更为高级的特征值，也就是 x0,x1,x2,x3 的进化体，并且它们是由 x 与决定的，因为是梯度下降的，所以 a 是变化的，并且变得越来越厉害，所以这些更高级的特征值远比仅仅将 x 次方厉害，也能更好的预测新数据。这就是神经网络相比于逻辑回归和线性回归的优势。