

增强现实—Multimodal text style transfer for outdoor vision-and-language navigation
本文提出多模态文本风格迁移(MTST)方法,解决户外视觉语言导航(VLN)中的数据稀缺问题。通过将Google Maps API生成的模板化导航指令迁移为包含视觉目标描述的类人风格指令,显著增强训练数据质量。同时设计VLN Transformer模型,采用两阶段训练:先在风格迁移后的外部数据上预训练,再在真实导航数据上微调。实验表明,该方法在户外VLN任务完成率上相对提升8.7%,有效缓解了数据不足难题。研究还构建并开源了Manh-50辅助数据集,包含风格迁移后的导航指令,为后续研究提供资源支持。

