古德-图灵估计

     古德-图灵估计可以解决n元语法模型(n-gram)中的数据的稀疏问题。主要的思想是把非零的n元语法的概率降低匀给一些低概率n元语法,以修改最大似然估计与真实概率之间的偏离。是实用比较多的平滑算法。

                        

            图:从左到右的变化:把一部分看得见的事件的概率匀给未看见的事件  

      以统计词典中的概率为例,来说明古德-图铃公式。

      假定在语料库中出现r次的词有Nr个,特别的出现0次(未登录词)出现的次数为N0个。语料库中词语的个数为N,显然

                                

      出现r次的词在词典中的相对频度为r/N。如果不做任何优化处理,就依这个相对频度作为这些词的概率估计。

      加入当r非常小时,这么统计可能不可靠,因此出现r次的那些词在计算它们的概率时要使用一个更小一点的数,是dr,而不是r。古德-图灵估计按照下面的公式计算dr:

                                   dr=(r+1)* Nr+1/Nr

      显然

                                 

      一般来说,出现一次的词的数量比出现两次的词的数量多,出现两次的词的数量比出现三次的数量多。这叫做Zipf定律。下图是一个小语料库中,出现次数r和对应的数量Nr之间的关系。

      这样就给未登录词一个很小的非零值,从而解决了零概率问题。同时下调了出现频率很低的词的概率。在实际的自然语言处理中,一般对出现次数超过某个阈值的词概率不下调;只对低于这个阈值的词,概率下调;下调的频率之和等于未登录词的概率。

      对于二元组(wi-1,wi)的条件概率估计P(wi|wi-1)也可以做同样的处理。因通过前一个词wi-1预测后一个词wi时,所有可能情况的条件总和应该为1,即

                  

      对于出现次数非常少的二元组(wi-1|wi),它们出现的次数需要按着古德-图灵的方法打折扣,这样意味着有一部分概率没有分配出去,留给了未登录的二元组(wi-1wi)。基于这种思想,估计二元模型概率公式如下:

                 

      其中T是一个阈值,一般在8-10左右,fgt表示经过古德-图灵估计后的相对频度。

 

部分摘自《数学之美》 吴军

一般来说,语言模型旨在对于人类语言的内在规律进行建模,从而准确预测 词序列中未来(或缺失)词或词元(Token)的概率。根据所采用技术方法的不同, 针对语言模型的研究工作可以分为以下四个主要发展阶段: • 统计语言模型(Statistical Language Model, SLM). 在 20 世纪 90 年代兴起的 统计语言模型 [4, 5] 是基于统计学习方法研发的。具体来说,统计语言模型使用马 尔可夫假设(Markov Assumption)来建立语言序列的预测模型,通常是根据词序 列中若干个连续的上下文单词来预测下一个词的出现概率,即根据一个固定长度 的前缀来预测目标单词。具有固定上下文长度 𝑛 的统计语言模型通常被称为 𝑛 元 (𝑛-gram)语言模型,如二元或三元语言模型。统计语言模型被广泛应用于信息检索 (Information Retrieval, IR)和自然语言处理(Natural Language Processing, NLP)等领 域的早期研究工作。对于高阶统计语言模型来说,随着阶数 𝑛 的增加,需要估计的 转移概率项数将会指数级增长,经常会受到“维数灾难”(Curse of Dimensionality) 的困扰。为了缓解数据稀疏问题,需要设计专门的语言模型平滑策略,如回退估 计(Back-off Estimation)和古德-图灵估计(Good-Turing Estimation)。然而平滑方 法对于高阶上下文的刻画能力仍然较弱,无法精确建模复杂的高阶语义关系。 • 神经语言模型(Neural Language Model, NLM). 神经语言模型 [6, 7] 使用神经 网络来建模文本序列的生成,如循环神经网络(Recurrent Neural Networks, RNN)。图 1.1 语言模型的发展历程 灵奖获得者 Yoshua Bengio 在一项早期工作中 [6] 引入了分布式词表示(Distributed Word Representation)这一概念,并构建了基于聚合上下文特征(即分布式词向量) 的目标词预测函数。分布式词表示使用低维稠密向量来表示词汇的语义,这与基 于词典空间的稀疏词向量表示(One-Hot Representation)有着本质的不同,能够刻 画更为丰富的隐含语义特征。同时,稠密向量的非零表征对于复杂语言模型的搭 建非常友好,能够有效克服统计语言模型中的数据稀疏问题。分布式词向量又称为 “词嵌入”(Word Embedding)。这种基于隐含语义特征表示的语言建模方法为自然 语言处理任务提供了一种较为通用的解决途径。在这一系列工作中,word2vec [8, 9] 是一个具有代表性的词嵌入学习模型,它构建了一个简化的浅层神经网络来学 习分布式词表示,所学习到的词嵌入可以用作后续任务的语义特征提取器,在自 然语言处理任务中得到了广泛使用,取得了显著的性能提升。这些创新性的研究 工作将语言模型用于文本表示学习(超越了原始的词序列建模目标),在自然语言 处理领域产生了重要影响。概述上文
03-11
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值