十二.softmax多分类和sklearn实现

最新推荐文章于 2025-05-28 22:16:35 发布

stackooooover

最新推荐文章于 2025-05-28 22:16:35 发布

阅读量2.3k

点赞数 1

分类专栏：机器学习实战机器学习理论基础

本文链接：https://blog.youkuaiyun.com/weixin_36128607/article/details/118248531

版权

机器学习理论基础同时被 2 个专栏收录

39 篇文章

订阅专栏

机器学习实战

31 篇文章

订阅专栏

1.softmax函数

softmax函数相当于将输出值转化为一个概率分布：
$f(x)=\frac{e^{x} }{\sum e^{x}}$
因此， $\in [0,1],\sum f(x)=1$ 。

2.softmax多分类模型

对于多分类任务，有 $m$ 个样本，每个样本有 $n$ 个维度和一个标签 $y$ ， $y$ 有 $(1, 2, 3, . . ., C)$ 共 $C$ 个类别， $\mathbf{w}_{c}\in R^{1\times n}$ 为第 $c$ 个类别的权重系数，第 $i$ 个样本 $\mathbf{x}^{i}\in R^{n\times 1}$ 的类别 $\mathbf{y}^{i}$ 为类别 $c$ 的概率为：
$p(y^{i}|x^{i})=\frac{e^{\mathbf{w^{c}\mathbf{x}^{i}}}}{\sum_{c=1}^{C}e^{\mathbf{w^{c}}}\mathbf{x^{i}}}$
用one-hot向量 $\mathbf{\widehat{y}}^{i}$ 表示样本 $\mathbf{x^{i}}$ 的预测结果：
$\mathbf{\widehat{y}}^{i}=\frac{e^{\mathbf{W}\mathbf{x^{i}}}}{E^{T}{e^{\mathbf{W}\mathbf{x^{i}}}}}$
其中, $\mathbf{W}\in R^{c\times n},\mathbf{x}^{i}\in R^{n\times 1},E \in R^{c\times 1},\mathbf{\widehat{y}}^{i}\in R ^{c\times 1}$ 。

3.损失函数

softmax模型采用交叉熵作为损失函数：
$J(\mathbf{W})=-\frac{1}{m}\sum_{i=1}^{m}(\mathbf{y}^{i})^{T}\log \widehat{\mathbf{y}}^{i}=-\frac{1}{m}\sum_{i=1}^{m}(\mathbf{y}^{i})^{T}\log \frac{e^{\mathbf{Wx^{i}}}}{E^{T}e^{\mathbf{Wx^{i}}}}$

4.参数学习

使用梯度下降迭代求解参数值，令：
$L=-(\mathbf{y}^{i})^{T}\log \frac{e^{\mathbf{Wx^{i}}}}{E^{T}e^{\mathbf{Wx^{i}}}}=-(\mathbf{y}^{i})^{T}[\mathbf{Wx^{i}}-E\log E^{T}e^{\mathbf{Wx^{i}}}]$
其中：
$\mathbf{W}\in R^{c\times n},\mathbf{x}^{i}\in R^{n\times 1},E \in R^{c\times 1},\mathbf{y}^{i}\in R^{c\times 1},L\in R$
又由于 $(\mathbf{y}^{i})^{T}E=1$ ，所以：
$L=-(\mathbf{y}^{i})^{T}\mathbf{Wx^{i}}-\log E^{T}e^{\mathbf{Wx^{i}}}$
要求 $\frac{\partial L}{\partial \mathbf{W}}$ ，标量对矩阵求导，使用矩阵微分(矩阵微分乘法，逐元素函数微分)：
$dL=(-\mathbf{y}^{i})^{T}d\mathbf{Wx}^{i}+\frac{E^{T}(e^{\mathbf{Wx}^{i}}\odot d\mathbf{Wx}^{i})}{E^{T}e^{\mathbf{Wx}^{i}}}$
又 $E^{T}(\mathbf{U\odot V})=\mathbf{U^{T}V}$ ,所以：
$E^{T}(e^{\mathbf{Wx}^{i}}\odot d\mathbf{Wx}^{i})=(e^{\mathbf{Wx}^{i}})^{T} d\mathbf{Wx}^{i}$
综上：
$\begin{aligned} dL&=(-\mathbf{y}^{i})^{T}d\mathbf{Wx}^{i}+\frac{E^{T}(e^{\mathbf{Wx}^{i}}\odot d\mathbf{Wx}^{i})}{E^{T}e^{\mathbf{Wx}^{i}}} \\&=(-\mathbf{y}^{i})^{T}d\mathbf{Wx}^{i}+\frac{(e^{\mathbf{Wx}^{i}})^{T}d\mathbf{Wx}^{i}}{E^{T}e^{\mathbf{Wx}^{i}}} \\&=[(-\mathbf{y}^{i})^{T}+\frac{(e^{\mathbf{Wx}^{i}})^{T}}{E^{T}e^{\mathbf{Wx}^{i}}}]d\mathbf{Wx}^{i} \\&=[(\widehat{\mathbf{y}}^{i})^{T}-(\mathbf{y}^{i})^{T}]d\mathbf{Wx}^{i} \\&=tr[(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})^{T}d\mathbf{Wx}^{i}] \\&=tr[\mathbf{x}^{i}(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})^{T}d\mathbf{W}] \end{aligned}$
最终：
$\frac{\partial L}{\partial \mathbf{W}}=[\mathbf{x}^{i}(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})^{T}]^{T}=(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})(\mathbf{x}^{i})^{T} \\ \frac{\partial J}{\partial \mathbf{W}}=\sum_{i=1}^{m}(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})(\mathbf{x}^{i})^{T}$
第 $k + 1$ 次的迭代公式为：
$\mathbf{W}^{k+1}=\mathbf{W}^{k}-\lambda\sum_{i=1}^{m}(\widehat{\mathbf{y}}^{i}-\mathbf{y}^{i})(\mathbf{x}^{i})^{T}$
其中：
$\mathbf{\widehat{y}}^{i}=\frac{e^{\mathbf{W}\mathbf{x^{i}}}}{E^{T}{e^{\mathbf{W}\mathbf{x^{i}}}}}$

5.sklearn实现多分类

(1)数据集简介

鸢尾花数据集是一个经典数据集。数据集内包含 3 类共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于4种中的哪一品种。

(2)准备数据

导入数据集,划分训练集和测试集

from sklearn import datasets
from sklearn.model_selection import train_test_split
iris = datasets.load_iris()
x,y=iris.data,iris.target
x_train,x_test,y_train,y_test = train_test_split(x,y)
print(x_train.shape,x_test.shape,y_train.shape,y_test.shape)

输出：

(112, 4) (38, 4) (112,) (38,)

(3)数据标准化

from sklearn.preprocessing import StandardScaler
std = StandardScaler()
x_train = std.fit_transform(x_train)
x_test = std.fit_transform(x_test)

(4)训练、预测和评价

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
model = LogisticRegression()
model.fit(x_train,y_train)
y_pred = model.predict(x_test)
print(accuracy_score(y_pred,y_test))

输出：