Good-turning估计

最新推荐文章于 2021-11-23 22:51:09 发布

原创最新推荐文章于 2021-11-23 22:51:09 发布 · 3.5k 阅读

2 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

25 篇文章

订阅专栏

本文介绍了一种解决统计预言模型中数据稀疏问题的方法——古德图灵估计。通过重新分配概率质量给未出现过的词汇，使得模型更加平滑，并有效地降低了数据稀疏度。

吴军数学之美又看了一遍，写的有深有浅，比如这次，有不同的感觉。

统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现 $r$ 次数的词有 $N_r$ 个，则有

N = \sum r = 1 \infty r N r

$N = \sum_{r=1}^{\infty}rN_r$
当

r $r$ 较小时，我们使用

dr $d_r$ 代替

r $r$ ,这里

dr<r $d_r<r$ ,

dr $d_r$ 的值可由下式表示

d r = ( r + 1 ) N r + 1 N r

$d_r = \frac{(r+1)N_r+1}{N_r}$
这样可以保证

N = \sum r d r N r

$N = \sum_rd_rN_r$
这里我们考虑一个经验，一般来说

r $r$ 越大，词的数量

Nr $N_r$ 就越小,即验证了上述

dr<r $d_r<r$ 且

d0>0 $d_0>0$ .这样的代替可以让数据稀疏度有效的降低，所有词的概率估计会看起来很平滑。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhzhzhi

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

1.3 n-gram平滑算法：Good-Turning、拉普拉斯平滑

炫云云

06-12

1767

文章目录为什么需要平滑操作拉普拉斯平滑Add-one smoothingadd-k Smoothinggood-turning smooth问题Good-Turning示例python参考为什么需要平滑操作假设有一个预料集我喜欢喝奶茶我喜欢吃巧克力我喜欢健身天啦撸，一起同过窗要出第三季了这个时候要计算“我喜欢喝咖啡”的概率假设我们用bi-gram模型来计算，也就是说　　P(我喜欢喝咖啡)=P(我)P(喜欢∣我)P(喝∣喜欢)P(咖啡∣喝)=(3/16)∗(1)∗(1

古德图灵估计（Good-Turing Estimation)

weixin_42272768的博客

05-03

3758

古德-图灵估计最早发表于1953年。其核心思想是用r取代原始的r。举例说明如下：假设有单词组“the the the big big dog”，其中the出现3次，big出现2次，dog出现1次。正常的情况下计算单词出现的频次只需要用单词出现的次数/总单词数。比如the的频次=3/6=0.5。但是如果考虑到未出现的单词，比如eat，算法上需要如何处理？古德-图灵算法将已经出现的单词的频次进行调整，将出现次数r定义为（r+1)*(出现r+1次单词的个数）/ （出现r次单词的个数）。通过计算可以得到新的频次

参与评论您还未登录，请先登录后发表或查看评论

NLP(8): 专家系统和good turning smoothing

JJJJJJames的博客

02-08

456

第一节：Good-Turning Smoothing NcN_cNc:出现c次的单词的个数 N3N_3N3: 有多少个单词出现三次考虑新的物种，将下一次出现的概率的部分给其他新的物种，所以对于已经有的物种下一次出现的概率会小于mle得估计。缺点：在原数据上出现21次的下一个的概率需要出现22次得单词的个数。但有可能统计不出22次的内容。且不一定有单词出现22次。第二节：利用语言模型生成句子语言模型是一个生成模型通过模型可以生成一些新的数据：图片，音乐，文本 1、unigram mode

Good-Turing、Absolute、kneser-ney smooth

qq_39492317的博客

11-05

1201

###Good-Turing smoothing Good-Turing基本思想是：用观察计数较高的N元语法数重新估计概率量的大小，并把它指派给那些具有零计数或者较低计数的N元语法。公式: c∗=(c+1)Nc+1Ncc^* = \frac{(c+1)N_{c+1}}{N_c}c∗=Nc(c+1)Nc+1 其中c为某个N-gram出现的频数,NcN_cNc为出现次数为c的N-Gram的词...

Good-Turning Smothing 学习

theowl13的博客

02-21

461

使用场景语言模型平滑化等公式没有出现过的单词出现的概率 Pmle=0P_{mle}=0Pmle=0 （mle的方式） Pgt=N1NP_{gt}=\frac{N_1}{N}Pgt=NN1 （good-turning的方式）出现过的单词出现的概率 Pmle=cNP_{mle}=\frac{c}{N}Pmle=Nc（mle的方式） Pgt=(c+1)Nc+1Nc×NP_{gt}=\frac{(c+1)N_{c+1}}{N_c\times N}Pgt=Nc×N(c+1)Nc+1

NLP-Good Turning平滑

Swayzzu的博客

11-17

2083

如何计算没有出现过的词，下一次出现的概率？

编写good-turning平滑函数完成数据平滑，利用平滑数据完成对2-gram模型的建立，用jieba分词处理语料库，计算测试句子概率并输出结果

最新发布

06-09

Good-Turing平滑的核心思想是利用出现次数为c的n-gram的数目（Nc）来重新估计出现次数为c的n-gram的概率，并将剩余的概率质量分配给那些未出现的n-gram（即c=0）[^3]。具体步骤如下：1.**数据准备**：-使用jieba分词...

任务描述本关任务：实现二元语言模型的数据平滑，并利用平滑后的数据计算句子概率。相关知识为了完成本关任务，你需要掌握：1.模型平滑化。2.good-turning平滑。模型平滑在使用语言模型直接计算某个句子出现的概率时，可能会由于某个单词或单词对出现的概率为0而导致整个句子出现的概率为0。例如下面这个场景：在上面的场景中，由于部分单词对出现的概率为0，导致最终两句话出现的概率均为0。但实际上，s1=“今天没有训练营”比s2=“今天训练营没有”更符合语法习惯，我们也更希望计算出来的P(s1)大于P(s2)。一般来说，语言模型的平滑处理可分为以下三类： Discounting（折扣）：通过给概率不为0的项打折扣，来提高概率为0的项的概率； Interpolation（插值）：在使用N-gram模型计算某一项的概率时，同时结合低阶的模型所计算出的概率； Back‐off：approximate counts of unobserved N‐gram based on the proportion of back‐off events (e.g., N‐1 gram)。这里我们主要介绍与使用Discounting中的good-turning平滑方法。 good-turning平滑 Good-Turing技术是在1953年由古德（I.J.Good）引用图灵（Turing）的方法而提出来的，其基本思想是：用观察计数较高的N元语法数重新估计概率量的大小，并把它指派给那些具有零计数或者较低计数的N元语法。涉及的符号含义为: c：某个N元语法出现的频数。 Nc：出现次数为c的 N-gram 词组的个数，是频数的频数 c*：Good-Turing平滑计数设N为测试元组集合中元组的数目，则有如下公式：通过新频数可计算出经过good-turing平滑后的元组概率，公式如下：编程要求根据提示，在右侧编辑器补充代码，编写平滑函数，计算句子的概率测试说明平台会对你编写的代码进行测试：语料库：研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。测试输入：他是研究物理的预期输出：5.6888888888888895e-05 开始你的任务吧，祝你成功！ import jieba #语料句子 sentence_ori="研究生物很有意思。他大学时代是研究生物的。生物专业是他的首选目标。他是研究生。" #测试句子 sentence_test=input() #任务：编写平滑函数完成数据平滑，利用平滑数据完成对2-gram模型的建立，计算测试句子概率并输出结果 # ********** Begin *********# # ********** End **********#

03-29

数据平滑部分，Good-Turing的方法需要统计每个频率r出现的次数Nr，然后用(r+1)*Nr+1/Nr来估计调整后的频率。不过实际操作中可能需要处理很多边缘情况，比如当r+1的Nr+1不存在的时候怎么办。可能需要使用一些插值或者...

[NLP] 实例讲解 N-gram语言模型中 Good-Turning 平滑技术

江南蜡笔小新

11-23

4326

1.背景最近在阅读论文的时候接触到了古德-图灵估计法，感觉比较模糊不清，进一步查阅了一些资料，希望有一个自己的直观理解。 …本论文采用的是古德-图灵估计法，其基本思想是对于任意出现r次的n元语法对，都假设它出现了r*次，即降低高概率的n元语法对，提高低概率的n元语法对… 1.1 为什么要用平滑技术？通常来讲，我们认为N-gram模型是一个无监督模型，具有非常大的语料库。然而，语料库再大，也会出现未知的N元对。以bigram为例，p(鼠标|弃飞)，语料库再大这个p(鼠标|弃飞)也该等于0吧？天王老

Good-Turning Smoothing介绍及推理

简单随风的博客

02-23

4765

在介绍Good-Turning Smoothing之前，我们可以先看一个有趣的例子：假设你在钓鱼，已经抓到了18只鱼： 10条鲤鱼，3条黑鱼，2条刀鱼，1条鲨鱼，1条草鱼，1条鳗鱼… Q1：下一个钓到的鱼是鲨鱼的概率是多少？ Q2：下一条鱼是新鱼种（之前没有出现过）的概率是多少？ Q3：既然如此，重新想一下，下一条抓到鱼为鲨鱼的概率是多少？我们在看到Q1时，可以很简单的算出Q1结果为 1/18...

Good Turing Smoothing

yinxusen的专栏

09-23

2402

srilm语言模型中的平滑算法——Good-Turing平滑算法

vincent1y的博客

08-10

8686

最近使用使用python自己写的语言模型和srilm得到的语言模型做对比，srilm里还是有很多trick的，尤其是平滑算法，集成了很多数据平滑算法，研究的时候，记录一下。在srilm中有回退和差值两类平滑算法，简单来说，回退就是将出现过的ngram的概率打个折扣，将那部分折扣下来的概率均摊为未出现的ngram作为他们的概率，而插值呢，一样是对出现过的ngram打折扣，但是折扣下来的概率值均摊...

N元语法模型的数据稀疏问题解决方法之一：Good-Turing平滑

约定的博客

03-10

1855

转载自时空霹雳在统计语言模型章节中，我们谈到了N元语法模型不可避免的一个问题，就是数据稀疏，其原因是大规模语料统计与有限语料的矛盾。根据齐普夫（Zipf）法则，我们能够推测知零概率问题不可避免。数据稀疏问题的解决办法就是进行平滑处理。平滑处理的算法有很多，本文将介绍众多算法中的佼佼者：古德-图灵（Good-Tu

RL策略梯度方法之(二): Actor-Critic算法

qq_38293297的博客

09-22

2683

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析策略梯度的直观解释Actor-Critic框架引出GAE算法实现算法流程代码实现原理解析 AC算法框架被广泛应用于实际强化学习算法中，该框架集成了值函数估计算法和策略搜索算法，是解决实际问题时最常考虑的框架。 AC算法起源于策略梯度算法，因此在介绍AC算法时，我们先从策略梯度入手。（其实上篇已经介绍

good-turing平滑方法评价_音质标准与音质评价的方法

weixin_29948389的博客

12-12

356

所谓声音的质量，是指经传输、处理后音频信号的保真度。目前，业界公认的声音质量标准分为4级，即数字激光唱盘CD-DA质量，其信号带宽为10Hz~20kHz；调频广播FM质量，其信号带宽为20Hz~15kHz；调幅广播AM质量，其信号带宽为50Hz~7kHz；电话的话音质量，其信号带宽为200Hz~3400Hz。可见，数字激光唱盘的声音质量最高，电话的话音质量最低。除了频率范围外，人们往往还用其它方法...

古德-图灵估计(Good-Turing Estimate) From 《数学之美》（笔记）

zjy997的博客

04-21

3633

第3章统计语言模型这是1953年古德(I.J.Good)在他老板图灵(Alan Turing)的指导下，提出的在统计中相信可靠的统计数据，而对不可信的统计数据打折扣的一种概率估计方法，同时将折扣出来的那一小部分概率给与未看见的时间(Unseen Events)。古德和图灵还给出一个很漂亮的重新估算概率的公式，这个公式后来被称为古德-图灵估计(Good-Turing Estimate)。 ...

good-turing平滑方法评价_分类评价指标

weixin_42498006的博客

11-28

1120

此系列文章为笔者学习工作中的阶段性总结，难免有纰漏，如有不正之处，欢迎指正，大家共同成长。分类(Classification)是机器学习中需要解决的主要问题之一，分类任务有诸多评价指标，在诸多的评估指标中，大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标，不仅不能发现模型本身的问题，而且会得出错误的结论。下面我们从基本概念入手，探讨如何根据实际场景选择合适的评价指标。便...

自然语言处理期末复习（1）n元模型

康雨城

06-17

3174

一、n元模型1.语言建模：根据给定的语言样本估计概率P(s)的过程2.语言模型：根据语言样本估计出的概率分布P称为语言L的语言模型。3.马尔科夫假设：词wi 的出现只与其前n-1个词有关4.n元组（n-gram）：只需要考虑n个词组成的片段。（n越大,模型需要的参数越多,历史信息越多，模型越准确）5.如何建立n元模型：确定训练语料、对预料进行分词、句子边界标记，增加两个特殊词。建立n元模型的方法：...