多分类与文本处理技术详解
1. 多分类中的Softmax函数
在多分类问题里,预测输入向量 $\mathbf{x}$ 属于类别 $i$ 的概率 $P(y = i|\mathbf{x})$ 可通过一种广义的逻辑函数——Softmax函数来计算。Softmax函数接收向量 $\mathbf{z} = (z_1, z_2, \ldots, z_C)$ 作为输入,返回一个归一化向量,其第 $i$ 个坐标为:
$$\sigma(\mathbf{z}) i = \frac{e^{z_i}}{\sum {j=1}^{C} e^{z_j}}$$
容易验证,$\sum_{i=1}^{C} \sigma(\mathbf{z})_i = 1$。
多项式逻辑回归对应一个只有一层的网络。对于要识别的 $C$ 种语言或类别,会有 $C$ 个权重向量 $\mathbf{w} 1$ 到 $\mathbf{w}_C$,其中 $\mathbf{w}_i$ 对应语言 $i$。对于输入向量 $\mathbf{x}$,在 $C$ 个类别上的Softmax概率分布为:
$$\sigma(\mathbf{w}_1 \cdot \mathbf{x}, \mathbf{w}_2 \cdot \mathbf{x}, \ldots, \mathbf{w}_C \cdot \mathbf{x}) = \left( \frac{e^{\mathbf{w}_1 \cdot \mathbf{x}}}{\sum {j=1}^{C} e^{\mathbf{w} j \cdot \mathbf{x}}}, \frac{e^{\mathbf{w}_2 \cdot \mathbf{x}}
超级会员免费看
订阅专栏 解锁全文
23万+

被折叠的 条评论
为什么被折叠?



