分类算法:从感知机到可微近似的深入解析
1. 分类问题概述
分类是一项重要的任务,旨在区分不同类型的事物。它在现代众多领域都有广泛应用,如计算机视觉、语音处理和数字营销等。在分类问题中,最基础的是二分类问题,像人脸检测(区分面部和非面部图像)、文本情感分析(判断产品评论是积极还是消极)以及医疗状况自动诊断(判断患者是否患有特定疾病)等。
2. 感知机成本函数
2.1 基本感知机模型
在二分类问题中,给定一个包含 $P$ 个输入/输出数据点 ${x_p, y_p}_{p = 1}^P$ 的训练集,其中输入 $x_p$ 是 $N$ 维的,输出 $y_p$ 取离散值 ${-1, +1}$ 表示类别。我们的目标是学习一个超平面 $b + x^T w = 0$,使得一个类别($y_p = +1$)的点大多位于超平面上方($b + x^T w > 0$),另一个类别($y_p = -1$)的点大多位于超平面下方($b + x^T w < 0$)。
若超平面能正确分类点 $x_p$,则满足:
- 当 $y_p = +1$ 时,$b + x_p^T w > 0$;
- 当 $y_p = -1$ 时,$b + x_p^T w < 0$。
可以将这两个条件合并为 $-y_p(b + x_p^T w) < 0$,进一步写成 $max(0, -y_p(b + x_p^T w)) = 0$。通过对所有点求和,得到感知机成本函数:
$g_1(b, w) = \sum_{p = 1}^P max(0, -y_p(b + x_p^T w))$
求解最小化问题 $\m
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



