文本表示

文本表示：从离散到分布式向量转化

最新推荐文章于 2022-11-28 15:42:04 发布

原创

最新推荐文章于 2022-11-28 15:42:04 发布 · 1.7k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了文本表示的几种方法，包括词袋模型、TF-IDF、One-hot编码、Bi-gram/N-gram以及基于矩阵降维和神经网络的分布式表示。这些方法旨在将文本转化为数学向量，以便于处理自然语言任务，同时讨论了各种方法的优缺点。

文本表示就是将文本转化成数学上的向量表示，怎么把字符串转化为向量，就是文本表示的核心问题。

一、离散表示

1、词袋模型（Bag of Words）

词袋模型就是将字符串看成一个装满词的袋子，词是在袋子里随机放着的。

假设语料库为：

John likes to watch movies. Mary likes too.

John also likes to watch football games.

词典（袋子）就是：{"John": 1, "likes": 2, "to": 3, "watch": 4, "movies": 5, "also":6, "football": 7, "games": 8, "Mary": 9, "too": 10}

John likes to watch movies. Mary likes too. 就可以表示为: [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]。

John also likes to watch football games. 就可以表示为: [1, 1, 1, 1, 0, 1, 1, 1, 0, 0]。

词袋模型的优点：

（1）、简单、方便、快捷。

（2）、在语料充足的条件下，对简单的自然语言处理任务效果不错，例如文本分类。

词袋模型的缺点：

（1）、其准确率往往比较低。凡是出现在文本中的词一视同仁，不能体现不同词在一句话中的不同的重要性。

（2）、无法关注词语之间的顺序，如“武松打老虎”跟“老虎打武松”在词袋子模型中是认为一样的。

2、TF-IDF（Term Frequency - Inverse Document Frequency）

在文本表示中不仅考虑词，还考虑出现词的重要程度，就用到TF-IDF。

每个词的IDF权重计算公式为:

$idf=log(1+\frac{N}{n_t})$

其中 $N$ 为文档总数， $n_t$ 为包含该词的文档总数。那么：

$TF-IDF=tf*idf$

3、One-hot

One-hot

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。