作者:禅与计算机程序设计艺术
1.简介
随着互联网的普及,越来越多的人喜欢用电脑上网,进行各种各样的社交活动、购物、阅读新闻、观看视频等。而另一方面,由于自然语言的复杂性和表达能力限制,使得不同地区的人们翻译成母语时的意思差别很大,导致日常生活中产生较大的困扰。因此,为了解决这一难题,语言模型的研究领域不断涌现,研究人员在机器翻译(MT)领域进行了深入的探索。
本文将围绕“两个挑战”和科研方向三个重点来阐述MT领域的最新进展。首先,通过介绍基本概念、术语,包括词典、统计语言模型、N-gram语言模型、句法树、短语结构等,并对其区别和联系进行说明。其次,介绍MT过程中的两个主要“挑战”,即资源匮乏和领域适应。第三,提出“注意力机制”的概念以及如何有效地利用它来改善MT性能。最后,结合目前的科研工作,介绍当前MT领域的最新进展和相关的研究方向。
2.基本概念、术语
词典
词典是基于计算机的语言学语料库,主要用来表示语言的各种形式。每一个单词都是词典中的一个记录项,记录其出现频率、上下文、语义、音标、拼写等信息。词典往往按照一定数量规模制作,并由专业的语言学研究者进行更新维护。比如,英文词典是按照字母顺序排列,中文词典则按部就班地采用常用汉字、行首字