（四）通过BP神经网络来理解人工智能

Jeo_dmy

已于 2025-01-02 21:18:09 修改

阅读量786

点赞数 16

分类专栏： AI启航：努力成为高中同学都能理解的人工智能文章标签：人工智能神经网络深度学习

于 2024-12-27 18:40:42 首次发布

本文链接：https://blog.youkuaiyun.com/duyuan6949/article/details/144773954

版权

AI启航：努力成为高中同学都能理解的人工智能专栏收录该内容

12 篇文章

订阅专栏

人工智能起步还得从BP神经网络说起：从历史到现代的一段算法演进之旅

1. 引言：从ChatGPT说起

最近，ChatGPT、DALL·E等AI应用让全世界为之震撼。许多人惊叹于AI技术的神奇，却不知道在这些璀璨的明星背后，有一个低调的基石功臣——BP神经网络（Back Propagation Neural Network）。就像盖房子要打地基一样，学习人工智能，我们也要从BP神经网络这个基础开始。

2. 什么是BP神经网络？

2.1 基本概念

BP神经网络，全称"误差反向传播神经网络"，它模仿了人类大脑的神经元连接方式。想象一下，如果你在学习一项新技能：

首先你要接收信息（输入层）
然后大脑处理这些信息（隐藏层）
最后做出反应（输出层）
如果反应错误，你会总结经验，下次改进（误差反向传播）

2.2 直观理解

让我们用一个简单的例子来理解：假设你正在教一个小朋友辨认猫和狗。

# 一个简单的示例：猫狗分类器
import numpy as np

# 定义特征（简化版）
# 假设我们只用两个特征：
# 1. 叫声的频率（喵喵叫为1，汪汪叫为0）
# 2. 尾巴长度（厘米）
input_data = np.array([
    [1, 20],  # 猫
    [0, 25],  # 狗
])

# 标签（1代表猫，0代表狗）
labels = np.array([[1],
                  [0]])

2.3 BP网络的结构

让我们创建一个最简单的BP神经网络：

class SimpleBPNetwork:
    def __init__(self):
        # 随机初始化权重
        self.input_layer_size = 2
        self.hidden_layer_size = 3
        self.output_layer_size = 1
        
        # 初始化权重（随机数）
        self.weights1 = np.random.randn(self.input_layer_size, self.hidden_layer_size)
        self.weights2 = np.random.randn(self.hidden_layer_size, self.output_layer_size)
    
    def sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def forward(self, X):
        # 前向传播
        self.hidden = self.sigmoid(np.dot(X, self.weights1))
        self.output = self.sigmoid(np.dot(self.hidden, self.weights2))
        return self.output

3. BP神经网络如何学习？

3.1 前向传播过程

就像我们学习新知识一样，BP网络的学习也分为几个步骤。首先是前向传播：

# 前向传播示例
X = np.array([[1, 20]])  # 输入一个样本（假设是猫）
network = SimpleBPNetwork()
prediction = network.forward(X)
print(f"预测结果：{prediction}")

3.2 反向传播过程

当预测结果出错时，网络需要学习和调整。这就是反向传播的过程：

def backward(self, X, y, output):
    # 计算输出层的误差
    self.output_error = y - output
    self.output_delta = self.output_error * output * (1 - output)
    
    # 计算隐藏层的误差
    self.hidden_error = self.output_delta.dot(self.weights2.T)
    self.hidden_delta = self.hidden_error * self.hidden * (1 - self.hidden)
    
    # 更新权重
    self.weights2 += self.hidden.T.dot(self.output_delta) * 0.1
    self.weights1 += X.T.dot(self.hidden_delta) * 0.1

4. 实际应用示例：手写数字识别

让我们用一个经典的例子来说明BP神经网络的实际应用：

from sklearn.datasets import load_digits
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import train_test_split

# 加载手写数字数据集
digits = load_digits()
X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target, test_size=0.2)

# 创建BP神经网络
mlp = MLPClassifier(hidden_layer_sizes=(100,), max_iter=10, random_state=1)

# 训练模型
mlp.fit(X_train, y_train)

# 预测
accuracy = mlp.score(X_test, y_test)
print(f"准确率：{accuracy * 100:.2f}%")

5. BP神经网络的局限性

5.1 梯度消失问题

# 演示梯度消失
def deep_network_gradient():
    x = 1.0
    for _ in range(10):  # 模拟10层网络
        x = sigmoid(x)
        print(f"经过一层后的值：{x}")

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

5.2 局部最小值问题

import matplotlib.pyplot as plt
import numpy as np

# 创建一个有多个局部最小值的函数
x = np.linspace(-5, 5, 100)
y = x**2 + 3*np.sin(x)

plt.plot(x, y)
plt.title('函数优化中的局部最小值问题')
plt.xlabel('x')
plt.ylabel('y')
plt.grid(True)
plt.show()

6. 现代深度学习对BP的改进

6.1现代深度学习框架（如PyTorch）仍然使用BP的核心思想，但做了很多改进：

import torch
import torch.nn as nn

# 现代深度学习网络示例
class ModernNN(nn.Module):
    def __init__(self):
        super(ModernNN, self).__init__()
        self.layers = nn.Sequential(
            nn.Linear(2, 64),
            nn.ReLU(),  # 使用ReLU替代sigmoid
            nn.BatchNorm1d(64),  # 批归一化
            nn.Dropout(0.2),  # dropout防止过拟合
            nn.Linear(64, 1),
            nn.Sigmoid()
        )
    
    def forward(self, x):
        return self.layers(x)

6.2 完整的基于Pytorch的BP网络训练

# 完整的MNIST手写数字识别实现

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
import numpy as np

# 1. 设置随机种子确保结果可复现
torch.manual_seed(42)

# 2. 数据预处理和加载
# 定义数据转换：将图像转换为tensor，并标准化像素值到[-1,1]
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# 下载并加载MNIST训练集和测试集
train_dataset = torchvision.datasets.MNIST(
    root='./data',  # 数据存储路径
    train=True,     # 使用训练集
    transform=transform,
    download=True   # 如果数据不存在则下载
)

test_dataset = torchvision.datasets.MNIST(
    root='./data',
    train=False,    # 使用测试集
    transform=transform,
    download=True
)

# 创建数据加载器
train_loader = DataLoader(
    dataset=train_dataset,
    batch_size=64,   # 每批处理的样本数
    shuffle=True     # 随机打乱数据
)

test_loader = DataLoader(
    dataset=test_dataset,
    batch_size=64,
    shuffle=False
)

# 3. 定义BP神经网络模型
class BPNeuralNetwork(nn.Module):
    def __init__(self):
        super(BPNeuralNetwork, self).__init__()
        # 展平层：将28x28的图像转换为784维向量
        self.flatten = nn.Flatten()
        
        # 定义全连接层
        self.layers = nn.Sequential(
            nn.Linear(784, 512),    # 输入层 -> 隐藏层1
            nn.ReLU(),              # 激活函数
            nn.Dropout(0.2),        # dropout防止过拟合
            
            nn.Linear(512, 256),    # 隐藏层1 -> 隐藏层2
            nn.ReLU(),
            nn.Dropout(0.2),
            
            nn.Linear(256, 128),    # 隐藏层2 -> 隐藏层3
            nn.ReLU(),
            nn.Dropout(0.2),
            
            nn.Linear(128, 10)      # 输出层（10个数字类别）
        )
    
    def forward(self, x):
        x = self.flatten(x)         # 展平输入
        logits = self.layers(x)     # 前向传播
        return logits

# 4. 创建模型、定义损失函数和优化器
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = BPNeuralNetwork().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 5. 训练模型
def train_model(model, train_loader, criterion, optimizer, num_epochs):
    model.train()
    train_losses = []
    train_accs = []
    
    for epoch in range(num_epochs):
        running_loss = 0.0
        correct = 0
        total = 0
        
        for i, (images, labels) in enumerate(train_loader):
            images, labels = images.to(device), labels.to(device)
            
            # 前向传播
            outputs = model(images)
            loss = criterion(outputs, labels)
            
            # 反向传播和优化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            
            # 统计损失和准确率
            running_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
            
            if (i + 1) % 100 == 0:
                print(f'Epoch [{epoch+1}/{num_epochs}], '
                      f'Step [{i+1}/{len(train_loader)}], '
                      f'Loss: {loss.item():.4f}')
        
        # 计算每个epoch的平均损失和准确率
        epoch_loss = running_loss / len(train_loader)
        epoch_acc = 100 * correct / total
        train_losses.append(epoch_loss)
        train_accs.append(epoch_acc)
        
        print(f'Epoch [{epoch+1}/{num_epochs}], '
              f'Loss: {epoch_loss:.4f}, '
              f'Accuracy: {epoch_acc:.2f}%')
    
    return train_losses, train_accs

# 6. 评估模型
def evaluate_model(model, test_loader):
    model.eval()
    correct = 0
    total = 0
    
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    
    accuracy = 100 * correct / total
    print(f'Test Accuracy: {accuracy:.2f}%')
    return accuracy

# 7. 可视化训练结果
def plot_training_results(losses, accuracies):
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))
    
    # 绘制损失曲线
    ax1.plot(losses)
    ax1.set_title('Training Loss')
    ax1.set_xlabel('Epoch')
    ax1.set_ylabel('Loss')
    
    # 绘制准确率曲线
    ax2.plot(accuracies)
    ax2.set_title('Training Accuracy')
    ax2.set_xlabel('Epoch')
    ax2.set_ylabel('Accuracy (%)')
    
    plt.tight_layout()
    plt.show()

# 8. 预测和展示结果
def show_prediction_examples(model, test_loader, num_examples=5):
    model.eval()
    images, labels = next(iter(test_loader))
    images = images[:num_examples].to(device)
    labels = labels[:num_examples]
    
    with torch.no_grad():
        outputs = model(images)
        _, predicted = torch.max(outputs.data, 1)
    
    fig = plt.figure(figsize=(12, 3))
    for i in range(num_examples):
        plt.subplot(1, num_examples, i + 1)
        plt.imshow(images[i].cpu().squeeze(), cmap='gray')
        plt.title(f'Pred: {predicted[i]}\nTrue: {labels[i]}')
        plt.axis('off')
    plt.show()

# 9. 主函数：执行训练和评估
def main():
    # 训练模型
    print("开始训练模型...")
    num_epochs = 5
    train_losses, train_accs = train_model(
        model, train_loader, criterion, optimizer, num_epochs
    )
    
    # 评估模型
    print("\n开始评估模型...")
    test_accuracy = evaluate_model(model, test_loader)
    
    # 可视化训练结果
    plot_training_results(train_losses, train_accs)
    
    # 展示预测例子
    show_prediction_examples(model, test_loader)
    
    # 保存模型
    torch.save(model.state_dict(), 'mnist_bp_model.pth')
    print("\n模型已保存到 'mnist_bp_model.pth'")

# 运行程序
if __name__ == '__main__':
    main()

注意要运行这个程序，你需要安装以下依赖：

pip install torch torchvision matplotlib numpy

程序会自动下载MNIST数据集（约11MB），存储在当前目录的’./data’文件夹中。第一次运行时会自动下载，之后会直接使用已下载的数据集。

这个实现充分展示了BP神经网络在实际应用中的使用方式，并通过MNIST这个经典数据集来验证其效果。模型训练完成后，通常可以达到97%以上的测试集准确率。

7. 总结与展望

BP神经网络就像是人工智能的"入门课"，它教会我们：

如何构建一个可学习的神经网络
如何通过误差反向传播来优化网络
深度学习的基本原理

虽然现代AI已经发展出了更复杂的架构，但BP的思想依然是其核心。正如牛顿力学是现代物理的基础一样，BP神经网络也是现代深度学习不可或缺的基石。

对于初学者来说，理解BP神经网络不仅能帮助你更好地理解现代AI技术，还能为你未来深入学习打下坚实基础。就像学习弹钢琴要从基本功开始一样，学习AI，也要从BP神经网络起步。

8. 相关资源推荐

8.1 编程工具与框架

8.2 学习资源

8.3 在线文档与教程

8.4 社区资源

记住：每个AI专家都是从理解BP神经网络开始的，慢慢来，相信你也可以！