N-gram 特征提取

最新推荐文章于 2025-11-06 09:50:12 发布

转载最新推荐文章于 2025-11-06 09:50:12 发布 · 1.4w 阅读

·

5

·

文章标签：

#N-gram #特征提取

NLP 专栏收录该内容

36 篇文章

订阅专栏

N-gram 是一种基于统计语言模型的算法，又被称为一阶马尔科夫链。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。每一个字节片段称为 gram，对所有的 gram 的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键 gram 列表，也就是这个文本的向量特征空间。列表中的每一种 gram 就是一个特征向量维度。

算法优点：

1.语种无关性，对中英繁都通用。
2.不需要进行语言学上的处理。

3.容错性强。

N-gram 算法采用固定长度为 N 的滑动窗口进行切分，目前常用 N-gram 模型是二元的 Bi-gram 和三元的 Tri-gram 模型。对两种模型的切分方法进行比较，比如 “北京欢迎你的到来”，Bi-gram 切分就是 “北京欢迎欢迎你的你的到来”，Tri-gram 切分就是 “北京欢迎你的欢迎你的到来”。

特征提取过程如下：

1.首先对文档进行粗切分，得到语段序列。
2.对语段序列进行 gram 切分，得到gram 频度列表。并选择频度大于设定阈值的 gram 片段作为特征向量。
3.每个gram 片段就是一个维度，形成特征向量表。

评论 4

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。