我们使用以下标准,为在线预测和主动学习研究提供一个结构化的分类和区分方法,正如论文及其参考文献中所讨论的那样。以下是每个标准的详细解释:
-
预测任务: 这是指研究旨在解决的基本问题。
- 二元分类: 最简单的形式,目标是预测两种可能的结果之一(例如,明天会下雨吗?是或否)。
- 多类别分类: 更一般的问题,其中有两种以上可能的结果(例如,将电子邮件分类为垃圾邮件、促销邮件或重要邮件)。
- 回归: 预测一个连续值而不是离散标签(例如,预测明天的温度)。
-
反馈机制: 这描述了学习算法如何接收有关其预测正确性的信息。
- 完整信息: 算法在每次预测后都会收到真实标签(正确答案),从而可以直接进行比较和学习。
- 标签高效/选择性采样: 获取标签的成本可能很高。算法会策略性地选择何时请求真实标签,平衡对反馈的需求与获取反馈的成本。
- 老虎机反馈: 算法只接收一个信号,指示其预测是好是坏,但没有收到实际的正确答案。这是一个更具挑战性的设置,因为反馈提供的信息较少。
-
数据/专家的假设: 这些是关于数据性质和提供建议的专家的基本假设。
- 对
该文探讨在线二元序列预测问题,采用标签高效的选择性采样算法,减少反馈成本并保持预测准确性。在对抗性环境下,针对最佳专家场景,通过指数加权平均方法改进预测策略,并以遗憾作为性能评价指标。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



