实现softmax的步骤

softmax函数实现详解

最新推荐文章于 2025-03-18 12:10:05 发布

原创最新推荐文章于 2025-03-18 12:10:05 发布 · 841 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

#机器学习专栏收录该内容

5 篇文章

订阅专栏

背景知识

Softmax 函数通常用于多分类问题中，将模型的输出（通常是未归一化的分数或对数几率）转换为概率分布。它的作用是让每个类别的输出值在 $[0, 1]$ 范围内，并且所有类别的输出值之和为 1。

假设输入是一个形状为 $\times k$ 的矩阵 $X$ ，其中 $n$ 是样本数量， $k$ 是类别数量。Softmax 的目标是对每个样本的 $k$ 个类别进行归一化处理。

具体步骤

步骤 1：对每个项求幂（使用 exp）

输入矩阵 $X$ 中的每个元素 $x_{ij}$ 都会被计算为 $e^{x_{ij}}$ 。
求幂的作用是将任意实数值映射到正数范围（因为指数函数 $e^x > 0$ 对于所有 $x$ 成立），并且保持相对大小关系不变。
这一步的结果是一个新的矩阵 $exp(X)\text{exp}(X)$ ，形状仍然是 $\times k$ 。

示例：

如果输入矩阵 $X$ 为：

$\begin{bmatrix} 1 & 2 \\ 3 & 4 \end{bmatrix}$

那么经过第一步后：
$\text{exp}(X) = \begin{bmatrix} e^1 & e^2 \\ e^3 & e^4 \end{bmatrix} =\begin{bmatrix} 2.718 & 7.389 \\ 20.086 & 54.598 \end{bmatrix}$

步骤 2：对每一行求和，得到规范化常数

在这一步中，我们需要计算每个样本（即每行）的规范化常数。具体来说，对于第 $i$ 行，规范化常数为该行所有元素的和：
$\text{norm}_i = \sum_{j=1}^k e^{x_{ij}}$
结果是一个形状为 $\times 1$ 的向量，表示每个样本的规范化常数。

示例：

对于上一步中的矩阵 $exp(X)\text{exp}(X)$ ：
$\text{exp}(X) = \begin{bmatrix} 2.718 & 7.389 \\ 20.086 & 54.598 \end{bmatrix}$
每一行的和为：
$\text{norm}_1 = 2.718 + 7.389 = 10.107$
$\text{norm}_2 = 20.086 + 54.598 = 74.684$
因此，规范化常数向量为：
$\text{norm} = \begin{bmatrix} 10.107 \\ 74.684 \end{bmatrix}$

步骤 3：将每一行除以其规范化常数

最后一步是将 $exp(X)\text{exp}(X)$ 中的每个元素除以其对应的规范化常数，确保每行的概率和为 1。
对于第 $i$ 行第 $j$ 列的元素，计算公式为：
$\text{softmax}_{ij} = \frac{e^{x_{ij}}}{\text{norm}_i}$
结果是一个形状为 $\times k$ 的矩阵，表示每个样本的类别概率分布。

示例：

对于 $exp(X)\text{exp}(X)$ 和 $norm\text{norm}$ ：
$\text{exp}(X) = \begin{bmatrix} 2.718 & 7.389 \\ 20.086 & 54.598 \end{bmatrix}, \quad \text{norm} = \begin{bmatrix} 10.107 \\ 74.684 \end{bmatrix}$
逐行归一化后：

$\text{softmax}(X) = \begin{bmatrix} \frac{2.718}{10.107} & \frac{7.389}{10.107} \\ \frac{20.086}{74.684} & \frac{54.598}{74.684} \end{bmatrix} =\begin{bmatrix} 0.269 & 0.731 \\ 0.269 & 0.731 \end{bmatrix}$