终于把神经网络算法搞懂了！！

最新推荐文章于 2025-06-04 10:02:13 发布

原创最新推荐文章于 2025-06-04 10:02:13 发布 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #算法 #人工智能 #AI大模型 #AI #大模型应用 #深度学习

神经网络作为深度学习的基础，广泛应用于图像识别、自然语言处理、语音识别等任务中。

神经网络的结构

神经网络主要由输入层、隐藏层和输出层组成。

输入层

输入层用于接收输入数据（例如图像、文本），每个输入节点代表一个特征值，输入层的节点数目与输入数据的特征数目一致。

隐藏层

隐藏层位于输入层和输出层之间，通过对输入数据进行非线性变换来提取特征。

神经网络可以有多个隐藏层，每个隐藏层由若干神经元构成。

隐藏层的层数和神经元数量是神经网络设计中的重要超参数。

输出层

输出最终的预测结果或分类标签。

输出层的神经元数量与任务相关，例如分类任务的输出节点数等于类别数，回归任务通常只有一个输出节点。

神经元的结构

一个神经元的基本功能是将输入数据加权求和并通过激活函数进行处理。

具体计算过程为：

在这里插入图片描述

其中：

在这里插入图片描述

常见的激活函数

激活函数的作用是为神经网络引入非线性，使得神经网络能够学习和拟合复杂的函数。

常用的激活函数包括：

Sigmoid

输出值在(0, 1)之间，常用于二分类任务的输出层。
Tanh

输出值在-1到1之间，适合中心对称的数据。
ReLU

ReLU 将所有负值截断为 0，广泛应用于隐藏层。
Softmax

用于多分类任务的输出层，输出概率分布。

在这里插入图片描述

import numpy as np
import matplotlib.pyplot as plt

# 激活函数定义

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def tanh(x):
    return np.tanh(x)

def relu(x):
    return np.maximum(0, x)

def softmax(x):
    e_x = np.exp(x - np.max(x))  # 防止溢出
    return e_x / e_x.sum(axis=0, keepdims=True)

# 数据范围
x = np.linspace(-10, 10, 400)
y_sigmoid = sigmoid(x)
y_tanh = tanh(x)
y_relu = relu(x)

# 绘制图像
plt.figure(figsize=(12, 8))

plt.subplot(2, 2, 1)
plt.plot(x, y_sigmoid, label="Sigmoid", color="blue")
plt.title("Sigmoid Function")
plt.xlabel("x")
plt.ylabel("sigmoid(x)")

plt.subplot(2, 2, 2)
plt.plot(x, y_tanh, label="Tanh", color="green")
plt.title("Tanh Function")
plt.xlabel("x")
plt.ylabel("tanh(x)")

plt.subplot(2, 2, 3)
plt.plot(x, y_relu, label="ReLU", color="red")
plt.title("ReLU Function")
plt.xlabel("x")
plt.ylabel("relu(x)")

x = np.array([2.0, 1.0, 0.1])
softmax_output = softmax(x)
labels = ['Class 1', 'Class 2', 'Class 3']
plt.subplot(2, 2, 4)
plt.bar(labels, softmax_output, color='skyblue')
plt.title('Softmax Function Output')
plt.xlabel('Classes')
plt.ylabel('Probability')
plt.tight_layout()
plt.show()

神经网络的训练过程

神经网络的训练过程是一个迭代优化的过程，主要目标是调整网络中的参数（权重和偏置），使得神经网络能够在给定任务上表现良好。

1. 初始化网络结构

神经网络的结构通常由输入层、隐藏层和输出层组成。

每一层都包含若干个神经元或“节点”，每个节点与上一层和下一层的节点通过“权重”相连。

在网络初始化时，权重通常随机初始化，偏置一般初始化为零或小的常数值。

2. 前向传播 (Forward Propagation)

前向传播是计算网络输出的过程

步骤如下：

输入数据

从输入层开始，网络接收一个输入样本（例如图像的像素值或文本的特征向量）。
加权求和

每一层的每个神经元会对来自前一层的输入进行加权求和。

计算公式如下：

在这里插入图片描述

激活函数

加权求和后，通过激活函数计算神经元的输出。

在这里插入图片描述

输出层

最终，经过一系列层的前向传播后，网络会输出预测结果。

在这里插入图片描述

3.计算损失

在每次前向传播后，我们需要计算神经网络的预测值与真实值之间的误差。

损失函数用于量化这种误差，不同的任务需要选择不同的损失函数。

回归任务

在这里插入图片描述

其中，是真实值，是预测值，是样本数。

分类任务

在这里插入图片描述

4. 反向传播

反向传播是训练神经网络的核心，它用于计算损失函数关于每个权重的梯度，并通过梯度下降算法来更新权重。

在这里插入图片描述

反向传播的步骤如下

计算损失函数对输出的梯度

首先，计算损失函数对输出层的梯度（即误差）：
计算每一层的误差

然后，通过链式法则逐层将误差向后传播，计算每一层的误差

在这里插入图片描述

计算权重和偏置的梯度

然后，计算每一层的权重和偏置的梯度

5. 参数更新

反向传播计算出每个权重和偏置的梯度后，接下来就是更新权重和偏置。

通常使用梯度下降算法来更新网络的权重和偏置。

更新公式如下

在这里插入图片描述

6. 迭代训练

训练过程通常会进行多次迭代（称为 epochs），每个 epoch 包括了对训练数据的一次完整的前向传播和反向传播。

案例分享

下面是一个使用神经网络对鸢尾花数据集进行分类的示例代码。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import to_categorical

#加载鸢尾花数据集
iris = datasets.load_iris()
X = iris.data
y = iris.target

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
y_one_hot = to_categorical(y, 3)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y_one_hot, test_size=0.2, random_state=42)

#构建神经网络模型
model = Sequential()
#输入层和第一个隐藏层
model.add(Dense(64, activation='relu', input_dim=X_train.shape[1]))
#第二个隐藏层
model.add(Dense(32, activation='relu'))
#输出层
model.add(Dense(3, activation='softmax'))  # 3类输出

model.compile(loss='categorical_crossentropy', optimizer=Adam(), metrics=['accuracy'])
history = model.fit(X_train, y_train, epochs=100, batch_size=10, validation_data=(X_test, y_test))

#绘制损失曲线
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss Curve')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.show()

#评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f"Test Loss: {loss:.4f}, Test Accuracy: {accuracy:.4f}")