TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio
TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog(arXiv CS.CL 2020)动机视听场景感知对话(AVSD)利用给定的场景、视频、音频和对话中的前转历史生成对问题的响应。AVSD被认为是最具挑战性的任务之一,因为系统需要识别对话的历史以及视觉和声学数据来准确回答问题。AVSD任务中的一个挑战
原创
2021-05-07 22:17:28 ·
407 阅读 ·
0 评论