双学习在图像翻译及语音处理中的应用
在人工智能领域,双学习是一种极具潜力的技术,它在图像翻译、视觉语言任务、其他图像相关任务以及语音处理等多个方面都有广泛的应用。
1. 图像相关任务中的双学习
1.1 视觉 - 语言任务
视觉 - 语言任务涵盖了视觉问答、图像描述和视频描述等,这些任务在计算机视觉、自然语言和机器学习领域备受关注,双学习在其中发挥了重要作用。
- 视觉问答(VQA)和视觉问题生成(VQG) :
- 李等人考虑了VQA任务和VQG任务之间的对偶性,将它们的对偶训练表述为学习一个可逆的跨模态融合模型,该模型可以根据给定图像推断问题或答案。他们在问题和答案的表示中添加了对偶重建约束。
- 徐等人专注于VQG,通过双学习的闭环利用VQA来提升VQG的性能。
- 图像描述 :为图像自动生成文本描述时,获取丰富的标注数据既耗时又昂贵。赵等人提出了一种双学习机制,原任务是从图像生成文本描述,对偶任务是从文本描述生成合理的图像。该方法可在半监督和无监督适应设置下进行训练。
- 视频描述 :王等人引入了句子到视频的任务作为对偶任务来提升视频描述的性能。他们提出了一个具有编码器 - 解码器 - 重构器架构的重构网络,利用前向和后向流之间的对偶性。除了标准的监督目标外,还基于对偶重建原则,通过最小化原始和重构视频特征之间的差异来增强训练。
- 相册故事讲述 :与图像和视频描述相关但不同,旨在为一组视觉相关或不相关的图像生成文本描述。类似于视频描述的方法,双学习通过从解码器的
超级会员免费看
订阅专栏 解锁全文
1320

被折叠的 条评论
为什么被折叠?



