多语言语音理解的判别式方法
1. 理解与翻译任务的差异
理解和翻译任务虽有相似之处,但理解任务有其自身特点,若要提升LLPB - SMT方法的性能,就必须考虑这些特点。经典翻译任务(从一种自然语言到另一种自然语言)和用于理解的翻译(从语言到语义标签的翻译)存在以下差异:
- 语义顺序 :句子的语义通常遵循单词出现的顺序,而在翻译任务中,根据语言对和句法接近程度,目标语言和源语言中翻译后的单词顺序可能不同。
- 单词对齐 :在翻译任务中,源单词可能不与任何目标单词对齐(零对齐),但在理解任务中,每个单词都必须与一个概念对齐,对于不影响句子含义的单词,会用特定的NULL概念进行标注。
- 评估指标 :两者的评估指标不同,翻译使用BLEU,理解使用概念错误率(CER),因此优化翻译系统的工具应调整为优化CER分数而非BLEU分数。
为了遵循句子语义遵循单词出现顺序的假设,我们引入了单调约束,使解码器严格按照单词顺序生成概念。翻译任务的一个主要难点是需要自动将源语言中的单词与目标语言中对应的单词对齐。由于训练翻译系统的语料库通常在句子级别对齐,因此需要一个自动对齐步骤来实现单词对齐。而大多数理解语料库在片段级别进行标注(对齐),使用对齐信息有助于对齐过程。使用BIO标记(Begin Inside Outside)可以确保源句子中的每个单词都与相应的概念对齐,无需额外的自动对齐。这样,从具有完美对齐(无对齐错误)的语料库中提取短语表。最后,为了从理解的角度评估该方法生成的假设(评估CER而非BLEU分数),我们提议修改MERT(最小错误率训练)算法,直接最大化CER。
超级会员免费看
订阅专栏 解锁全文
1736

被折叠的 条评论
为什么被折叠?



