n-gram

本文介绍了N元语法的基本概念,包括其定义、应用实例、主要用途、优缺点等,并探讨了其在自然语言处理领域的应用。

n-gram 中文名叫 N元语法,是把 n个连续的词作为子序列。

N元语法中的参数n,一般取2到5之间的值就可以,权值越大,效果越好,但计算量越大。

 

举例

当n取3时,我们从下面引文中抽取前几个N元语法。Always look on the bright side of life.

第一个N元语法(三元)是Always look on,第二个是look on the,第三个是on the bright。

 

主要用途

1. 基于单词的N元语法被用于文本主题模型

2. 基于字符的N元语法被用于作者归属问题

3. 基于字符的N元语法被用于识别拼写错误

 

优点

N元语法的计算方法与单个词计算方法相同,但比起单个词,N元语法能更好的描述文档,它提取了词语的上下文信息,有助于理解词语用法和词语分布。

 

缺点

词向量矩阵变得更加稀疏

N元语法是连续几个词,这种情况出现的概率肯定比单个词低,而且这相当于是个组合,其长度肯定比单个词的词向量要从,所有矩阵会更稀疏

所以N元语法不太适合短文章,在长文章中比较有效

 

这是我在深度学习自然语言处理的博客 https://www.cnblogs.com/yanshw/p/10529394.html,单词预测,里面也有对n-gram的介绍

转载于:https://www.cnblogs.com/yanshw/p/10647157.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值