避免性别偏见问题 Google公开文字翻译技术

Google更新翻译系统,采用三步法解决英语性别翻译问题,包括侦测性别翻译适用性、产生三种翻译结果并选择最优,已应用于英译法、意、葡、西及土译英。

Google日前发布透过提供两种性别翻译结果的方式,来解决原本Google翻译中存在的性别偏见问题,最近则是公开了性别翻译背后的技术,针对句子中涉及性别的文字进行翻译其实并不容易,为此Google必须重新更改目前的翻译框架,目前支持从英语翻译至法语、意大利语、葡萄牙语和西班牙语,以及将句子从土耳其语翻成英语。

文章转自:SBF胜博发

为了能够在句子中辨识出涉及性别翻译的文字,Google开发了3个步骤的方法,来解决英语提供性别的翻译问题,首先系统会先侦测输入的语句是否适用于特定性别翻译,接着,透过强化过的神经机器翻译(Neural Machine Translation,NMT)模型,产生针对男性、女性和中性的3种翻译结果,最后,再将这3种翻译结果与预设的翻译结果进行比较,来决定送出最佳的翻译结果。

以土耳其语为例,许多与人相关的文字,性别都是中立的,并没有分性别,要侦测出特定性别进行翻译就相当困难,这样的复杂性代表无法透过机器学习系统,在性别文字的列表中,找到像土耳其语这样性别中性的词汇,根据Google统计,在土耳其语翻译的请求中,大约有10%的翻译性别是模糊的,不管是翻成男性或是女性都可以。

首先,要侦测这些翻译请求的内容,Google用最新的文本分类算法,来建立一套可以侦测土耳其语的中性性别系统,由于这是在进入翻译系统之前,额外导入的步骤,必须要仔细平衡模型的复杂性和延迟性,Google用数千个经过人类标注的土耳其语范例来训练模型,土耳其语的专家针对这些范例进行分类,标示出该范例是否为中性性别,最后,透过卷积神经网络的分类系统正确分辨,需要进行特定性别翻译的语句。

找出该语句后,Google用强化过的的神经机器翻译NMT系统,产生男性化或是女性化的翻译结果,当没有性别请求时,训练过的模型会产生默认的翻译,若确认使用者的查询是性别中立的,Google会在翻译请求中加入性别前缀(prefix)。

最后,评估翻译准确率的步骤,则是用来决定要呈现什么样的性别翻译给使用者,由于不同性别的训练数据不同,两种性别的翻译结果也可能不同,评估系统会比较所有的翻译结果,找出最适合的翻译结果呈现给使用者。未来Google将会扩大特定性别翻译的功能到更多语言,也会处理解决非二元性别在翻译中的偏见问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值