2 机器学习知识 Softmax回归 deep learning system-优快云博客

本文链接：https://blog.youkuaiyun.com/greatcoder/article/details/130773513

本文介绍了机器学习中的线性模型用于多分类问题，包括模型的假设函数、损失函数（尤其是softmax和交叉熵损失）以及优化方法，如梯度下降法。讨论了如何通过梯度下降更新参数以减小损失函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习算法的三个主要部分

The hypothesis class: 模型结构
loss fuction 损失函数
An optimization method：在训练集上减小loss的方法

多分类问题

训练数据： $x(i)∈Rn,y(i)∈1,...,kfori=1,...mx^{(i)}\in \mathbb{R}^n ,y^{(i)}\in {1,...,k} for i=1,...m$
n 是输入数据的维度，输入的每一例数据是一个n维向量
k 是要分成的类的数量
m 是训练集的大小，总共有m例数据

线性假设函数

假设函数 $h:Rn→Rkh:\mathbb{R}^n \rightarrow\mathbb{R}^k$
其中 $h_i(x)$ 用来衡量划分到类 i 的可能性

一个线性的假设函数
$hθ(x)=θTxh_{\theta}(x)=\theta^Tx$
参数 $θ∈Rn×k\theta\in\mathbb{R}^{n\times k}$

矩阵形式

$X∈Rm×n=[x(1)T...x(m)T],y∈1,...,km=[y(1)...y(m)]X\in \mathbb{R}^{m\times n} = \begin{bmatrix} x^{(1)T} \\ ... \\ x^{(m)T} \end{bmatrix}, y\in{1,...,k}^m=\begin{bmatrix}y^{(1)} \\ ... \\ y^{(m)}\end{bmatrix}$
线性假设函数可以写成下面的形式

$hθ(X)=[hθ(x(1))T...hθ(x(m))T]=[x(1)Tθ...x(1)Tθ]=Xθh_\theta(X) = \begin{bmatrix}h_{\theta}(x^{(1)})^T \\... \\h_{\theta}(x^{(m)})^T \end{bmatrix}= \begin{bmatrix}x^{(1)T}\theta \\...\\x^{(1)T} \theta\end{bmatrix} = X\theta$

损失函数1 classification error

这个损失函数，不可微，对于optimization是非常不好用的

$ℓerr(h(x),y)={0,ifargmaxihi(x)=y1,otherwis\ell_{err}(h(x),y) = \left\{\begin{matrix} 0\quad ,if\quad argmax_i\quad h_i(x)=y \\ 1\quad ,otherwis \end{matrix}\right.$

损失函数2 softmax / cross-entropy loss

$zi=p(label=i)=exp(hi(x))∑j=1kexp(hj(x))⟺z=normalsize(exp(h(x)))z_i = p(label=i)=\frac{exp(h_i(x))}{\sum_{j=1}^kexp(h_j(x))} \Longleftrightarrow z = normalsize(exp(h(x)))$