题目
是的,就这样!通过支持性教师的情景内反馈,学习将指称表达转化为行动
论文地址:https://aclanthology.org/2023.findings-acl.587/
项目地址:https://github.com/clp-research/intra-episodic-feedback
摘要
在持续的交互中接收语言信号的能力对于未来的机器学习模型与人类自然协作和交互至关重要。在本文中,我们介绍了一项初步研究,评估了协作环境中给出的情景内反馈。我们使用一个指称性语言游戏作为面向任务的协作联合活动的可控示例。老师说出由众所周知的符号算法(“增量算法”)生成的指称表达作为初始指令,然后监视追随者的行为以可能干预情景内反馈(无需明确请求)。我们将这个任务定义为具有稀疏奖励的强化学习问题,并为启发式老师学习追随者策略。我们的结果表明,情景内反馈允许追随者概括场景复杂性的各个方面,并且表现比仅提供初始语句更好。
简介
人类在协作情况下的交流行为可以描述为联合行为的两个部分:发出信号和识别。在这样的联合活动中,这些信号充当协调装置,以增加参与者当前的共同点(Clark,1996)。对这些语言信号采取行动的能力对于未来的机器学习模型自然地与人类协作和互动至关重要(Lemon,2022;Fernández 等人,2011)。这种与人类的协作互动通常很流畅,一个交流行为接踵而至。强化学习 (RL) 的框架(Sutton and Barto,2018)描述了这样的机制,其中代理逐步接触具有动态因素(例如物体的位置或语言表达)的环境观察。目标是代理学会在交互过程中可以对智能体说的语言表达的多样性。
图 1 中表现良好:老师和控制抓手(灰色方块)的追随者之间的示例性交互。在 t0 的初始引用表达式 lRE 之后,老师根据追随者的动作提供反馈 lFBt,直到选择正确的部分。仅基于它所做的观察和获得的奖励,它就能够将智能体定位到特定环境中。
这里的一个关键挑战是即使在相对简单的环境中,也可能会出现大量需要智能体处理的情况(Chevalier-Boisvert 等人,2019 年)。最近关于协作智能体的研究侧重于使用大型预先收集的数据集进行模仿学习,以在复杂的模拟视觉环境中学习智能体(Gao 等人,2022 年;Padmakumar 等人,2022 年;Pashevich 等人,2021 年)或将学习定义为上下文强盗问题(Suhr 和 Artzi,2022 年;Suhr 等人,2019 年)。然而,其他研究表明,中间语言输入是提高智能体在面向任务的视觉环境中学习表现的宝贵信号(Co-Reyes 等人,2019;Mu 等人,2022)。
在本文中,我们介绍了一项初步研究,该研究评估了在协作环境中,在老师的情景内反馈下,追随者的学习成功率。 我们使用一个指称语言游戏(英语)作为任务导向型协作联合活动的可控示例(见图 1)。在这个游戏中,一个玩家(追随者)应该根据另一个玩家(老师)的指示选择一个棋子。我们假设老师说出指称表达作为初始指令,然后通过情景内反馈响应追随者的动作。我们将其定义为具有稀疏奖励的 RL 问题,其中中间反馈不是奖励函数的一部分,但其潜在用处仅由追随者学习。
相关工作
视觉和语言导航。在视觉和语言导航中,代理会收到一条自然语言指令,该指令将被理解为在视觉观察到的环境中导航到正确的目标位置(Gu 等人,2022 年)。如果需要,跟随者通常可以向 Oracle 询问更多信息(Nguyen 等人,2019 年;Nguyen 和 III,2019 年;Fried 等人,2018 年)。我们扩展了这个想法,旨在通过让 Oracle 选择何时作为环境的一部分说话,实现持续的互动和纠正,从而放松回合制范式。因此,在我们的参考游戏中,跟随者的语言后通道被切断,这样我们迫使跟随者更多地依赖视觉观察来完成任务。
从人类反馈中不断学习。Suhr 和 Artzi(2022 年)让人类指导跟随者,然后要求他们对代理的行为进行评分(竖起大拇指或竖起大拇指)。这种二元反馈用于进一步训练,作为情境强盗框架中的奖励信号。他们表明,代理在与人类的几次互动中有所进步。类似地,我们在强化学习的背景下评估学习过程,因为它对解决方案的规律性施加了“较弱的约束”(Nguyen 等人,2019 年),但采用广泛可用的现成学习算法(Schulman 等人,2017 年)来直接研究不同类型反馈的影响。给我们的代理的反馈是自然语言的,并不直接与重新ward;跟随者需要学习语言反馈本身的含义。
语言引导的政策学习。ChevalierBoisvert 等人(2019)比较了 RL 和模仿学习 (IL) 代理在各种语言条件任务上的采样复杂性。他