嵌入空间中的迁移学习与持续概念学习
1. 嵌入空间中的不等式与抗遗忘原理
在学习过程中,存在如下不等式:
[e_t \leq e_J^{T - 1} + W(\hat{q}(t), \psi(\hat{p}(t) J)) + \sum {s = t}^{T - 2} W(\psi(\hat{p}(s) J), \psi(\hat{p}(s + 1)_J)) + e^{C(\theta^*)} + \sqrt{\frac{2 \log(\frac{1}{\xi})}{\zeta}} + \sqrt{\frac{1}{n_t}} + \sqrt{\frac{1}{n {er, t - 1}}}]
1.1 不等式证明
考虑具有经验分布 (\hat{q}(t)) 的 (Z(t)) 以及网络输入空间中分布为 (\psi(\hat{p}(T - 1)_J)) 的伪任务。通过在 (W(\hat{q}(t), \psi(\hat{p}(T - 1)_J))) 项上递归使用三角不等式,即对于所有 (t \leq s < T),有 (W(\hat{q}(t), \psi(\hat{p}(s)_J)) \leq W(\hat{p}(t), \psi(\hat{p}(s - 1)_J)) + W(\psi(\hat{p}(s)_J), \psi(\hat{p}(s - 1)_J))),可以推导出上述不等式。
1.2 算法抗遗忘原因
该不等式解释了算法能够解决灾难性遗忘问题的原因。在学习未来任务时,算法通过最小化 (e_t) 的上界来更新模型参数。当网络结构合适且有足够的标记数据点时:
-
超级会员免费看
订阅专栏 解锁全文
851

被折叠的 条评论
为什么被折叠?



