22、在线学习:监督与无监督方法详解

在线学习:监督与无监督方法详解

1. 在线监督学习

在线监督学习是处理监督学习任务的重要方法,在实际应用中,线性在线学习方法被广泛使用。对于一个学习任务,我们有输入域 $X$ 和输出域 $Y$,目标是学习一个假设函数 $f: X \to Y$,其中目标模型 $f$ 是一个线性函数。例如,在典型的线性二分类任务中,目标是学习一个线性分类器 $f: X \to {+1, -1}$,即 $f(x_t; w) = \text{sgn}(w \cdot x_t)$,这里 $X$ 通常是 $d$ 维向量空间 $\mathbb{R}^d$,$w \in X$ 是为待学习分类器指定的权重向量,$\text{sgn}(z)$ 是一个指示函数,当 $z > 0$ 时输出 $+1$,否则输出 $-1$。下面介绍两种主要的在线学习算法。

1.1 一阶/二阶在线学习
  • 被动攻击在线学习(PA)
    • PA 算法是一类流行的一阶在线学习算法,遵循基于间隔学习的原则。在第 $t$ 轮给定实例 $x_t$ 时,PA 算法的更新优化公式为:
      [
      w_{t + 1} = \arg \min_{w \in \mathbb{R}^d} \frac{1}{2} |w - w_t|^2 \quad \text{s.t. } \ell_t(w) = 0
      ]
      其中 $\ell_t(w) = \max(0, 1 - y_t w \cdot x_t)$ 是铰链损失。当铰链损失为 0 时,更新是被动的,即 $\ell = 0$ 时 $w_{t + 1} = w_t$;当损失不为 0 时,会强制 $w_{t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值