摘要
说话者-跟随者模型已被证明在视觉和语言导航中有效,其中说话者模型用于合成新指令以增强跟随者导航模型的训练数据。然而,在之前的许多方法中,生成的指令并没有被直接训练来优化跟随器的性能。在本文中,我们提出了 FOAM,一种 FOllower-Aware 说话者模型,它根据跟随者的反馈不断更新,从而生成的指令可以更适合跟随者当前的学习状态。具体来说,我们使用双层优化框架来优化说话者,并通过评估标记数据上的跟随者来获得其训练信号。 Room-to-Room 和 Room-cross-Room 数据集的实验结果表明,我们的方法可以在各个设置中优于强大的基线模型。分析还表明,我们生成的指令的质量高于基线。
引言
视觉和语言导航(VLN)的任务要求代理在给定自然语言指令的现实环境中进行导航。在 VLN 中,主要挑战之一是缺乏训练数据。为了缓解这个问题,人们提出了speaker-follower模型(Fried et al., 2018b)。具体来说,在speaker-follower模型中,指令跟随者智能体被训练为遵循提供的自然语言指令来完成指定的目标,而说话者模型则学习模拟人类如何描述路线并合成新指令,从而创建更多的训练关注者的数据。
而speaker增强数据在VLN中得到了广泛的应用(Fried et al., 2018b; Wang et al., 2019; Ma et al., 2019; Tan et al., 2019; Zhu et al., 2020a;hao et al., 2019)。 ,2020;Wang et al.,2021;Chen et al.,2021),之前的大多数方法都集中在改进follower导航模型。相比之下,如何改进说话人模型以生成更高质量的数据尚未得到充分探索。在这方面的研究中,弗里德等人。 (2018a) 构建一个实用的演讲者,可以根据跟随者如何解释指令来合成指令;谭等人。 (2019)提出在生成指令时向环境中随机添加噪声,使得噪声环境可以模仿未见过的环境,并且生成的指令可以更加多样化; Kurita 和 Cho (2021) 提出了一种 VLN 生成方法,其中训练说话者模型,并通过最大化生成给定指令的概率来选择跟随者的动作。
在本文中,我们提出了一种跟随者感知说话者模型(FOAM),通过直接获取跟随者的反馈来优化生成的指令,使得生成的指令能够更适合跟随者。为此,我们将这个想法构建为双层优化问题,并根据标记数据上的跟随者性能获得反馈信号以改进扬声器。如图 1 所示,跟随者和说话者以迭代方式进行训练:更新跟随者一步后,对一批标记数据进行评估,并根据跟随者的性能更新说话者。通过这种方式,训练说话者可以直接优化跟随者的表现。
Room-to-Room(Anderson 等人,2018b)和 Room-across-Room(Ku 等人,2020)的实验证明了 FOAM 的性能优于基线。值得注意的是,FOAM 可以实现与使用数百万个文本句子和图像文本对预训练的模型相当的性能。分析还表明,我们的说话者生成的指令质量高于基线。
相关工作
Vision-and-Language Navigation
训练具身导航智能体已成为一个日益活跃的研究领域(Anderson et al., 2018a,b; Chen et al., 2019; Ku et al., 2020; Shridhar et al., 2020; Padmakumar et al., 2022)。弗里德等人。 (2018b) 建议使用说话者跟随者模型来增强训练数据,Tan 等人对此进行了改进。 (2019)他们在环境中添加噪音,以便说话者可以生成更多样化的指令。赵等人。 (2021) 提出了测量生成指令的质量和过滤噪声样本的方法。刘等人。 (2021)建议对跟随者的最困难路径进行对抗性采样,并使用扬声器将这些路径转换为指令以进行数据增强。虽然语音增强数据已广泛应用于 VLN,但现有的大部分工作都集中在改进跟随者导航模型上(Wang 等人,2018;Li 等人,2019;Zhu 等人,2020b) 。例如,自我监控代理(Ma et al., 2019)通过视觉-文本共接地模块和进度监视器改进跨模式对齐;朱等人。 (2020a) 提出利用四个自我监督的辅助任务,可以为代理提供额外的训练信号。与我们的工作最相似的是,Fried 等人。 (2018a) 构建一个能够推理如何解释指令的扬声器; Kurita 和 Cho(2021)提出了一种生成方法,其中训练说话者模型来对给定动作的指令的概率进行建模,并且跟随者选择最大化该概率的动作。