自然语言处理中的行为模式、多语言视角与伦理考量
1. 多语言视角
在自然语言处理(NLP)研究中,我们常聚焦于实例层面的数据分析与评估,以及基于语言学的诊断测试,以识别违背认知预期的模型行为。然而,我们往往容易以自身作为认知上合理的语言行为的基准,但这样做会使我们忽视自身所讲语言之外的语言特征。
近年来,已经开发出在一百多种语言上进行训练的多语言模型,这些模型在广泛的任务中表现出色,尽管它们基于语言学和认知上的简单假设。不过,语言建模架构主要是为英语开发和优化的。研究发现,《世界语言结构地图集》中48%的类型特征类别仅存在于低资源语言中。由于跨语言模型对所有语言一视同仁,所以它们在低资源语言上的表现仍无法与高资源语言的结果相媲美。
为了量化这种跨语言不公平现象,有研究人员开发了完形填空数据集,发现最流行的多语言语言模型的句子完成质量即使在密切相关的语言中也存在差异。语言建模质量的一个重要方面是单元的选择。使用共享子词词汇表会导致低资源语言的过度分词,因此建议增加词汇量,以更好地捕捉跨语言多样性,并减少词汇重叠较少的语言之间的标记共享。
此外,有研究探索了语言神经实现中的跨语言差异,发现不同语言之间观察到的变异性与同一语言使用者之间的个体间变异性相似或更低。这凸显了在认知分析中更好地考虑个体差异的必要性,以便更好地捕捉处理模式中的潜在相似性和差异。
综合来看,在系统实验中重新审视计算建模选择,并整合心理语言学和类型学见解,对于更好地理解语言处理的共享认知和神经基础至关重要。这将有助于我们区分适用于处理英语的建模选择和适用于处理一般语言的认知上合理的建模选择。
超级会员免费看
订阅专栏 解锁全文
898

被折叠的 条评论
为什么被折叠?



