人工智能自然语言处理：N-gram和TF-IDF模型详解

汀、人工智能

于 2023-07-16 16:25:42 发布

阅读量1.8k

点赞数

分类专栏： LLM技术汇总文章标签：人工智能自然语言处理 tf-idf 深度学习 TF-IDF N-gram NLP

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.youkuaiyun.com/sinat_39620217/article/details/131751703

版权

LLM技术汇总专栏收录该内容

82 篇文章 ¥29.90 ¥99.00

订阅专栏

在这里插入图片描述

人工智能自然语言处理：N-gram和TF-IDF模型详解

1.N-gram 模型

N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。

每一个字节片段称为 gram，对所有 gram 的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键 gram 列表，也就是这个文本的向量特征空间，列表中的每一种 gram 就是一个特征向量维度。

该模型基于这样一种假设，第 N 个词的出现只与前面 N-1 个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。

当 n=1 时，一个一元模型为：

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

汀、人工智能 十分感谢您的支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。