语言模型:连续空间神经网络语言模型的应用与评估
1. 语言模型发展概述
在过去十年里,语言建模从标准的生成式马尔可夫模型风格的n - 元语法建模,转向了包含更多结构和不同概率估计技术的模型,如基于语法的语言模型、神经网络语言模型或判别式语言模型。这些模型在语音识别和机器翻译中都有应用。
神经网络语言模型(也称为连续空间语言模型)将文本处理中常用的离散词表示映射到连续表示,并在这个连续空间中估计n - 元语法概率。其动机在于连续表示可能会产生更平滑的概率估计,从而更好地泛化到未见的上下文。这种映射由一个具有特定架构的神经网络完成,该架构除了标准的隐藏层和输出层外,还包括一个映射(或投影)层。该层的权重在词汇表中的所有单词之间共享,并在语言模型训练期间与所有其他网络参数一起进行训练。
2. 连续空间神经网络语言模型的介绍
近年来,使用神经网络进行语言建模的兴趣日益浓厚。与依赖回退组件不同,神经网络方法试图通过在连续空间中进行估计来克服数据稀疏问题。早期,这种类型的语言模型主要用于领域内训练数据非常有限的任务。在EARS和GALE项目的背景下,开发了新的算法来在非常大的文本语料库上训练神经网络语言模型,这使得该方法能够应用于有数亿单词文本的领域。
连续空间语言模型的基本思想是将单词索引投影到连续空间,并使用在该空间上操作的概率估计器。由于得到的概率函数是单词表示的平滑函数,因此可以期望对未知n - 元语法有更好的泛化能力。神经网络可以同时学习单词到连续空间的投影并估计n - 元语法概率。这仍然是一种n - 元语法方法,但语言模型的后验概率是对任何长度为n - 1的可能上下文进行“插值”,而不是回退到更短的上下文。
到目前为
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



