Motivation
1.主动强化学习的核心问题是量化reward information的长期价值,但一般假定了每一轮的每个动作的cost是固定的。
2.即使有工作考虑了cost应该要变化,他们也没有考虑多种的feedback形式。
Method
self-regulated interactive learning
self-regulation的任务是最优的平衡human effort和output quality,关注于那种feedback(corrections, error markings, translation quality judgments)是最优的自动学习机制。
将self-regulation建模为带动态代价的主动强化学习问题。一旦接收一个输入,regulator就选择一种feedback(有代价),learner从人类那里得到feedback后来提升自己的prediction的质量,通过对regulator的惩罚或强化,regulator能加强对后期输入所需feedback种类的选择能力。
强化学习:与环境交互——学习策略——回报最大化
feedback
1.corrections
人类提供完整的修改后的reference。
2.Error marking
对输出进行标记,正确部分标记为1,错误部分标记为0.
3.self-supervision
从自己的输出学习