我们首先来学习softmax regression和one-hot encoding。这次本次实验需要学习和机器学习相关的两个重要概念。
我们之前学过逻辑回归。由于Logistic Regression算法复杂度低、容易实现等特点,在工业界中得到广泛使用,如计算广告中的点击率预估等。但是,Logistic Regression算法主要是用于处理二分类问题,若需要处理的是多分类问题,如手写字识别,即识别是{0,1,…,9}中的数字,此时,需要使用能够处理多分类问题的算法。Softmax Regression算法是Logistic Regression算法在多分类问题上的推广,主要用于处理多分类问题,其中,任意两个类之间是线性可分的。
我们知道,在Logistic回归中比较重要的有两个公式,一个是阶跃函数:

另一个是对应的损失函数:

最终,Logistic回归需要求出的是两个概率:

在Logistic回归需要求解的是两个概率,而在Softmax Regression中将不是两个概率,而是k个概率,k表示的是分类的个数。我们需要求出以下的概率值:

此时的损失函数为:

其中I{}是一个指示性函数,意思是大括号里的值为真时,该函数的结果为1,否则为0。下面就这几个公式做个解释:
先来看看损失函数的由来
概率函数可以表示为:

其似然函数为:

log似然为:

我们要最大化似然函数,即求max

转化成损失函数。
接着对log似然(或者是损失函数)求偏导
为了简单,我们仅取一个样本,则可简单表示为:

本文介绍了softmax回归作为逻辑回归在多分类问题中的扩展,详细阐述了softmax损失函数及其优化过程。同时,讲解了离散特征处理中的one-hot编码技术,解释了为何使用它来消除分类之间的不合理距离。通过MNIST手写数字数据集为例,展示了数据预处理和模型训练的过程,最后模型在验证集上达到了约78.8%的准确率。
最低0.47元/天 解锁文章
3847





