38、语言模型：连续空间神经网络语言模型的应用与评估-优快云博客

本文链接：https://blog.youkuaiyun.com/nft7creator/article/details/155011289

语言模型：连续空间神经网络语言模型的应用与评估

1. 语言模型发展概述

在过去十年里，语言建模从标准的生成式马尔可夫模型风格的n - 元语法建模，转向了包含更多结构和不同概率估计技术的模型，如基于语法的语言模型、神经网络语言模型或判别式语言模型。这些模型在语音识别和机器翻译中都有应用。

神经网络语言模型（也称为连续空间语言模型）将文本处理中常用的离散词表示映射到连续表示，并在这个连续空间中估计n - 元语法概率。其动机在于连续表示可能会产生更平滑的概率估计，从而更好地泛化到未见的上下文。这种映射由一个具有特定架构的神经网络完成，该架构除了标准的隐藏层和输出层外，还包括一个映射（或投影）层。该层的权重在词汇表中的所有单词之间共享，并在语言模型训练期间与所有其他网络参数一起进行训练。

2. 连续空间神经网络语言模型的介绍

近年来，使用神经网络进行语言建模的兴趣日益浓厚。与依赖回退组件不同，神经网络方法试图通过在连续空间中进行估计来克服数据稀疏问题。早期，这种类型的语言模型主要用于领域内训练数据非常有限的任务。在EARS和GALE项目的背景下，开发了新的算法来在非常大的文本语料库上训练神经网络语言模型，这使得该方法能够应用于有数亿单词文本的领域。

连续空间语言模型的基本思想是将单词索引投影到连续空间，并使用在该空间上操作的概率估计器。由于得到的概率函数是单词表示的平滑函数，因此可以期望对未知n - 元语法有更好的泛化能力。神经网络可以同时学习单词到连续空间的投影并估计n - 元语法概率。这仍然是一种n - 元语法方法，但语言模型的后验概率是对任何长度为n - 1的可能上下文进行“插值”，而不是回退到更短的上下文。

到目前为