如何从头开始构建神经网络？（附教程）

从零开始构建神经网络教程

原创

于 2024-11-13 13:46:35 发布 · 2.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #人工智能 #深度学习 #AIGC #python

随着流行的深度学习框架的出现，如 TensorFlow、Keras、PyTorch 以及其他类似库，学习神经网络对于新手来说变得更加便捷。虽然这些框架可以让你在几分钟内解决最复杂的计算任务，但它们并不要求你理解背后所有需求的核心概念和直觉。如果你知道特定函数如何工作，并且能在代码块中准确地使用它，就可以轻松地解决大多数问题。然而，要真正理解神经网络的概念以及完整的工作流程，从零开始学习人工神经网络的工作原理是至关重要的。这些神经网络是如何解决复杂问题的呢？

对于任何对人工智能和深度学习感兴趣的人，理解神经网络的原理以及构建过程都是一项有价值的探索。尽管我们暂时不使用深度学习框架如 TensorFlow、Keras 或 PyTorch，但我们将利用 NumPy 等库来进行数值矩阵计算。通过 NumPy 数组，我们可以进行模拟深度学习效果的复杂计算，并借此理解神经网络的编程流程。借助从头开始构建的这些神经网络，我们将实现一些简单的神经网络解决方案。

准备工作

为了跟进本文，你需要具备一些 Python 编程经验，并对深度学习有初步了解。我们假设所有读者都能访问足够强大的设备以运行提供的代码。

如果你还没有合适的 GPU，建议使用GPU云服务。因为这是最快、相对低成本获得 GPU，且可以简单灵活完成配置的方式。Digital Ocean 的 GPU Droplets 提供 H100 实例，近期限时优惠仅需 2.5刀/小时，点击这里了解 GPU Droplets 更多信息。

关于如何开始使用 Python 代码，我们建议你尝试这个初学者指南，以设置你的系统并准备运行初学者教程。

先了解一些概念

神经网络是深度学习和人工智能未来中最引人入胜的话题之一。虽然“人工神经网络”一词只是受到生物神经元概念的启发，但在构建这些网络时有一些明显的相似之处值得注意。就像人类神经元一样，使用人工神经网络的有趣的地方在于，我们通常可以确定它们在做什么，但很难确切知道它们是如何工作并实现目标的。尽管我们可以回答一些“xx是什么”的问题，但要完全理解模型的行为仍需进一步探索。这就是“黑盒”深度学习的来源，这个称呼适用于许多深度学习系统。不过，有许多神经网络是可解释的，使我们能够轻松地解释其目的和方法，这也取决于具体的用例。

人工智能是一个涉猎广泛的领域，而深度学习和神经网络只是其中的两个子域。在本文中，我们的主要目标是深入理解神经网络的概念，并展示如何在不使用一些知名和流行的深度学习框架的情况下从零开始构建一个架构。在深入学习如何从零实现神经网络之前，让我们直观地了解它们的工作原理。

理解神经元的概念

大多数数学运算可以通过函数连接。函数是神经网络学习几乎任何事物的最基本概念之一。无论函数具体实现什么，神经网络都可以被设计成近似该函数。这便是著名的普遍近似定理，它赋予神经网络处理各种不同挑战的能力，同时也带来了黑盒的特性。

许多现实世界的问题，如计算机视觉任务和自然语言处理任务，也可以表示为相互关联的函数。例如，通过函数，我们可以将几个输入单词映射到特定的输出单词，或将一组图像与各自的输出图像相连。数学和现实世界问题中的大多数概念都可以被重构为函数，从而框定问题并让神经网络找到适当的解决方案。

什么是人工神经网络？它是如何工作的？

人工神经网络通常被称为神经网络、神经网或 NNs。这些网络受到生物神经元的启发。需要再次强调的是，实际上，生物神经元与用于构建神经网络架构的“神经元”之间几乎没有直接关联。尽管两者的基本工作方式截然不同，但它们的共同点在于，结合在一起时，这些“神经元”可以相对容易地解决复杂任务。

为了理解神经网络的基本工作原理，线性方程“y = mx + c”是帮助理解神经网络的关键数学概念之一。方程中的“y = mx”部分帮助操控线条，获得所需的形状和数值。而另一个值，截距“c”，则通过改变在 y 轴上的位置来调整线条的位置。请参见以下两张图，以更清楚地了解此基本概念。

在神经网络中，Y=WX+B可以用来表示这个方程，Y代表输出值，w代表需要调整的权重，x代表输入值，b代表值，通过使用这个简单的逻辑，神经网络可以使用已知的信息‘b’和‘w’来确定‘x’的值。

为了更好地理解权重和偏差这一特定概念，我们可以通过如下所示的简单代码片段和结果输出来进行探索。通过一些输入值、权重和偏差，我们可以使用输入值与权重转置值的点乘积来计算输出。在得到的结果值上，再添加相应的偏差来得到所需的值。下面的示例相对简单，但足以建立基本理解。不过，在下一节和即将发布的文章中，我们将介绍更复杂的概念。

import numpy as np
inputs = [1, 2, 3, 2.5]
weights = [[ 0.2, 0.8, - 0.5, 1 ],[ 0.5, - 0.91, 0.26, - 0.5 ],[ - 0.26, - 0.27, 0.17, 0.87 ]]
biases = [2, 3, 0.5]
outputs = np.dot(weights, inputs) + biases

Or Use this methodnp.dot(inputs, weights.T) + biasesprint (outputs)