18、自然语言处理中的文本向量化与Word2vec算法详解

最新推荐文章于 2025-12-02 22:28:09 发布

rust6ferris

最新推荐文章于 2025-12-02 22:28:09 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏： NLP与机器学习入门指南文章标签：自然语言处理文本向量化 Word2vec

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/152431258

NLP与机器学习入门指南专栏收录该内容

62 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

自然语言处理中的文本向量化与Word2vec算法详解

1. 余弦相似度与向量归一化

在自然语言处理和机器学习中，余弦相似度是一种常用的度量方法。例如，假设有向量 (A = [1, 1]) 和 (B = [2, 0])，根据余弦相似度公式 (\cos(\theta) = \frac{A \cdot B}{\vert A \vert \vert B \vert})，可得：
[
\cos(\theta) = \frac{1\times2 + 1\times0}{\sqrt{2}\times2} = \frac{1}{\sqrt{2}}
]
此时，(\theta) 为 45 度。

向量常常会被“归一化”，即将向量缩放使其长度等于 1。缩放向量需要将向量除以其模（也称为“范数”），模可以通过勾股定理计算。以下是一些向量归一化的例子：
- 若 (A = [1,1])，则 (\vert A \vert = \sqrt{1\times1 + 1\times1} = \sqrt{2})，归一化后 (A/\vert A \vert = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}])（约为 ([0.707,0.707])）。
- 若 (A = [2,0])，则 (\vert A \vert = \sqrt{2\times2 + 0\times0} = \sqrt{4} = 2)，归一化后 (A/\vert A \vert = [\frac{2}{2}, \frac{0}{2}] = [1, 0])。
- 若 (A = [3,4])，则 (\vert A \vert = \sqrt{3\times3 + 4\times