EMNLP:缓解偏见与"更贴近用户"
近年来,缓解机器学习模型中的偏见已成为主要研究课题,这在自然语言处理领域尤为明显。
"我认为最终显而易见的是处理这个问题的重要性,我很高兴看到这一点,"某中心的应用科学家Georgiana Dinu表示,她也是今年自然语言处理实证方法会议(EMNLP)的区域主席。“撇开我们有责任量化和解决偏见这一事实不谈,这些问题本身确实既困难又迷人。”
Dinu的研究领域是机器翻译,她表示,量化偏见的问题在这里尤其严重。"这非常困难,因为一个输入有多个可接受的翻译,而且不容易识别翻译何时存在偏见或是正常变体,"她说。
机器翻译中一个明显的偏见领域是从无性别名词语言翻译到有性别名词语言时的性别刻板印象。"一个例子是’我的朋友是一名护士’,"Dinu解释说。“当’nurse’被翻译为女性时,刻板印象就出现了,而在’我的朋友是一名医生’中,'doctor’被翻译为男性。”
这种偏见的原因之一是训练数据的不平衡。“在机器翻译中,我们使用平行句子作为训练数据,而这些训练数据在性别方面非常不平衡。在最常用的平行语料库Europarl中,只有30%的数据有女性说话者。其他公共数据集中,男性特定数据的数量接近女性特定数据的三倍。”
反刻板印象翻译
即使在明确的情况下,翻译模型也可能存在严重偏见,导致错误的翻译结果。
"模型会竭尽全力避免生成反刻板印象的输出,"Dinu说。“有时候我们看到的情况真的令人难以置信。如果你尝试翻译’我的姐姐为成为一名优秀的外科医生而自豪’这样的句子,在某些语言中,模型会改变句子的意思,基本上变成’我的姐姐为我(一个男人)成为一名优秀的外科医生而自豪’。在其他情况下,它只会生成不合语法的输出,其中’外科医生’是男性。”
在EMNLP上,Dinu和她的同事发表了一篇专门解决这个问题的论文。
"我们基本上提出了数据增强作为解决训练数据不平衡的方案,"她说。“我们方法的特别之处在于,我们只使用单语数据。这是一种自训练方法,模型本身翻译更多女性性别的数据。我们有一个步骤来删除翻译错误的句子,然后将得到的数据添加到训练数据中以创造更多平衡。在几个公共数据集上,这提高了女性指称句子的准确性,而不会降低男性性别的准确性。”
更贴近用户
在机器翻译会议上,Dinu帮助组织了一个关于"使用术语翻译"的共享任务,其中机器翻译引擎可以访问特定术语的首选翻译数据库。
"这些可能因客户而异,"Dinu说。“它们可能每年都在变化,因此具有非常动态的特性。翻译中的一个既定任务是如何使机器翻译模型符合这些术语要求。”
“这个任务的解决方案空间近年来发生了变化。我们最终利用了机器学习模型的力量,拥有不仅能够翻译,还能应用如何翻译某些短语的’指令’的模型。例如,通常在机器翻译中,输入只是一个需要翻译成法语的英语句子。但现在输入是一个带有注释的句子,指示如何翻译该句子中的某个术语,这是你可以从术语数据库中自动检索的内容。神经网络如此强大,它们可以学习这种行为。它们学习翻译,同时也学习应用术语约束。”
“在机器翻译中,我们看到越来越需要做超越翻译的事情。例如,包含HTML标记的文本。假设你有一个输入句子,其中包含来自HTML页面的粗体标记。这里不是一个简单的翻译任务,而是翻译并将标记从源语言正确转移到目标语言的任务。或者也许你正在翻译文档中的表格,并希望翻译后的文本适合表格。”
“最终,这只是更接近翻译技术的用户。它真正弥合了最简单形式的翻译(这是我们首先必须解决的问题)与用户实际需求之间的差距,而用户需求通常是翻译与其他功能的集成。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
4951

被折叠的 条评论
为什么被折叠?



