线性分类模型与概率判别模型解析
1. 梯度形式与序列算法
在分类的线性模型中,我们在推导梯度时,发现了一个有趣的现象。对于线性模型的平方和误差函数、逻辑回归模型的交叉熵误差函数,梯度形式均为误差 $(y_{nj} - t_{nj})$ 乘以基函数 $\varphi_n$ 。这里我们用到了 $\sum_{k} t_{nk} = 1$ 这一条件。
具体来说,线性回归模型中,关于参数向量 $w$ 对数据点 $n$ 的对数似然函数的导数,形式为误差 $y_n - t_n$ 乘以特征向量 $\varphi_n$ 。同样,对于逻辑 sigmoid 激活函数与交叉熵误差函数的组合(公式 4.90),以及 softmax 激活函数与多类交叉熵误差函数的组合(公式 4.108),也得到了相同的简单形式。这其实是一个更普遍结果的例子。
基于这个梯度形式,我们可以制定一个序列算法。在这个算法中,模式一次呈现一个,每个权重向量使用公式 (3.22) 进行更新。以下是这个过程的简单列表说明:
1. 依次呈现每个模式。
2. 计算当前模式的误差 $(y_{nj} - t_{nj})$ 。
3. 用误差乘以基函数 $\varphi_n$ 得到梯度。
4. 使用公式 (3.22) 更新权重向量。
2. 批量算法与 IRLLS 算法
为了找到批量算法,我们借助牛顿 - 拉夫森更新方法,得到了用于多类问题的迭代重加权最小二乘法(IRLLS)算法。这个算法需要计算海森矩阵,该矩阵由大小为 $M \times M$ 的块组成,其中块 $j, k$ 由下式给出:
$\nabla_{w_k}\nabla_{w_j}E(w_1, \
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



