《自然语言处理实战：利用Python理解、分析和生成文本》读书笔记：第3章词中的数学

最新推荐文章于 2022-08-13 15:07:53 发布

非文的NLP修炼笔记

最新推荐文章于 2022-08-13 15:07:53 发布

阅读量546

点赞数

分类专栏： # 《自然语言处理实战》

本文链接：https://blog.youkuaiyun.com/weixin_44850744/article/details/126280050

版权

《自然语言处理实战》专栏收录该内容

4 篇文章

订阅专栏

第3章词中的数学

我们想要知道哪些词对于某篇具体文档和整个语料库更重要，于是我们可以利用这个“重要度”值，基于文档内的关键词重要度在语料库中寻找相关文档。

TF-IDF表示词项频率（term frequency)乘以逆文档频率(inverse document frequency)。词项频率是指每个词在某篇文档中的出现次数，而逆文档频率指的是文档集合中的文档总数除以某个词出现的文档总数。

3.1 词袋

具体来说，某个词在给定文档中出现的次数称为词项频率，通常简写为TF。在某些例子中，可以将某个词的出现频率除以文档中的词项总数从而得到归一化的词项频率结果。

我们不使用原始的词频来描述语料库中的文档，而使用归一化词项频率。类似地，我们可以计算每个词对文档的相对重要程度。

3.2 向量化

每个向量内部的值都必须要相对于某个在所有向量上的一致性结果进行计算，如果要对这些向量进行计算，那么需要相对于一些一致的东西，在公共空间中表示一个位置。向量之间需要有相同的远点，在每个维度上都有相同的表示尺度或者“单位”。这个过程的第一步是计算归一化词项频率。

此外，我们还希望每个文档向量同一维上的元素值代表同一个词。我们会在每篇文档中找到独立的词，然后将这些词集合求并集后从中找到每个独立的词。词汇表中的这些词集合通常称为词库。

向量空间

向量是线性代数或向量代数的主要组成部分。它是一个有序的数值列表，或者说这些数值是向量空间中的坐标。它描述了空间中的一个位置，或者它也可以用来确定空间中一个特定的方向和大小或距离。空间是所有可能出现在这个空间中的向量的集合。因此，两个值组成的向量在二维向量空间中，而3个值组成的向量在三维向量空间中。

对于自然语言文档向量空间，向量空间的维数是整个语料库中出现的不同词的数量。余弦相似度等于短向量在长向量上的投影长度占长向量长度的比例，它给出的是两个向量指向同一方向的程度。余弦相似度为1表示两个归一化向量完全相同，它们在所有维度上都指向完全相同的方向。

对于余弦相似度接近于1的NLP文档向量，我们知道这些文档应该使用了比例相近的相似词。因此，那些表示向量彼此接近的文档很可能涉及的是同一主题。

余弦相似度为0表示两个向量之间没有共享任何分量，它们是正交的，在所有维度上都互相垂直。对于NLP中的词频向量，只有当两篇文档没有公共词时才会出现这种情况。因为这些文档使用完全不同的词，所以它们一定在讨论完全不同的东西。当然，这并不意味着它们一定就有不同的含义或主题，而只表明它们使用完全不同的词。

余弦相似度为-1表示两个向量是反相似的，即完全相反，也就是两个向量指向完全相反的方向。对于简单的词频向量，甚至是归一化的词频向量，都不可能会发生这种情况。因为词的数目永远不会是负数，所以词频向量总是处于向量空间的同一象限中。没有词项频率向量可以偷偷进入其他向量尾部后面的象限。词项频率向量的分量不可能与另一个词项频率向量分量的符号相反，这是因为频率不可能是负数。