深入理解d2l-ai项目中的Softmax回归简洁实现-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00588/article/details/148361888

深入理解d2l-ai项目中的Softmax回归简洁实现

d2l-en d2l-ai/d2l-en: 是一个基于 Python 的深度学习教程，它使用了 SQLite 数据库存储数据。适合用于学习深度学习，特别是对于需要使用 Python 和 SQLite 数据库的场景。特点是深度学习教程、Python、SQLite 数据库。项目地址: https://gitcode.com/gh_mirrors/d2/d2l-en

引言

在深度学习领域，Softmax回归是多类分类问题的基础模型。本文将基于d2l-ai项目，详细讲解如何使用现代深度学习框架简洁地实现Softmax回归模型。我们将从模型定义、数值稳定性处理到训练过程，全方位解析这一经典算法的高效实现方式。

模型定义

现代深度学习框架提供了高级API，使得模型定义变得异常简单。我们首先来看如何在主流框架中定义Softmax回归模型：

PyTorch实现

class SoftmaxRegression(d2l.Classifier):
    def __init__(self, num_outputs, lr):
        super().__init__()
        self.save_hyperparameters()
        self.net = nn.Sequential(nn.Flatten(),
                                nn.LazyLinear(num_outputs))

PyTorch使用nn.Sequential容器将网络层按顺序组合，Flatten层将输入展平，LazyLinear层自动推断输入维度。

TensorFlow实现

class SoftmaxRegression(d2l.Classifier):
    def __init__(self, num_outputs, lr):
        super().__init__()
        self.save_hyperparameters()
        self.net = tf.keras.models.Sequential()
        self.net.add(tf.keras.layers.Flatten())
        self.net.add(tf.keras.layers.Dense(num_outputs))

TensorFlow的Keras API提供了类似的顺序模型构建方式。

JAX实现

class SoftmaxRegression(d2l.Classifier):
    num_outputs: int
    lr: float

    @nn.compact
    def __call__(self, X):
        X = X.reshape((X.shape[0], -1))  # 展平
        X = nn.Dense(self.num_outputs)(X)
        return X

JAX的Flax库使用@nn.compact装饰器，允许在单一方法中定义整个网络逻辑。

数值稳定性处理

Softmax函数的直接实现可能会遇到数值稳定性问题：

问题分析

Softmax计算公式为： $\hat y_j = \frac{\exp(o_j)}{\sum_k \exp(o_k)}$

当$o_k$值过大时，$\exp(o_k)$可能导致数值溢出(overflow)；当$o_k$值过小时，可能导致数值下溢(underflow)。

解决方案

通过减去最大值进行数值稳定： $\hat y_j = \frac{\exp(o_j - \bar{o})}{\sum_k \exp(o_k - \bar{o})}$

其中$\bar{o} = \max_k o_k$。这样处理后，所有指数参数都≤0，避免了数值问题。

结合交叉熵损失

更聪明的做法是将Softmax和交叉熵损失结合起来计算：

$\log \hat{y}_j = o_j - \bar{o} - \log \sum_k \exp(o_k - \bar{o})$

这种方法既避免了数值问题，又保持了计算效率。现代深度学习框架都内置了这种优化实现。

训练过程

使用Fashion-MNIST数据集训练模型：

data = d2l.FashionMNIST(batch_size=256)
model = SoftmaxRegression(num_outputs=10, lr=0.1)
trainer = d2l.Trainer(max_epochs=10)
trainer.fit(model, data)

训练过程简洁高效，几行代码就能完成模型训练和评估。