自然语言处理中的文本向量化与Word2vec算法详解
1. 余弦相似度与向量归一化
在自然语言处理和机器学习中,余弦相似度是一种常用的度量方法。例如,假设有向量 (A = [1, 1]) 和 (B = [2, 0]),根据余弦相似度公式 (\cos(\theta) = \frac{A \cdot B}{\vert A \vert \vert B \vert}),可得:
[
\cos(\theta) = \frac{1\times2 + 1\times0}{\sqrt{2}\times2} = \frac{1}{\sqrt{2}}
]
此时,(\theta) 为 45 度。
向量常常会被“归一化”,即将向量缩放使其长度等于 1。缩放向量需要将向量除以其模(也称为“范数”),模可以通过勾股定理计算。以下是一些向量归一化的例子:
- 若 (A = [1,1]),则 (\vert A \vert = \sqrt{1\times1 + 1\times1} = \sqrt{2}),归一化后 (A/\vert A \vert = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}])(约为 ([0.707,0.707]))。
- 若 (A = [2,0]),则 (\vert A \vert = \sqrt{2\times2 + 0\times0} = \sqrt{4} = 2),归一化后 (A/\vert A \vert = [\frac{2}{2}, \frac{0}{2}] = [1, 0])。
- 若 (A = [3,4]),则 (\vert A \vert = \sqrt{3\times3 + 4\times
超级会员免费看
订阅专栏 解锁全文
1031

被折叠的 条评论
为什么被折叠?



