18、自然语言处理中的文本向量化与Word2vec算法详解

自然语言处理中的文本向量化与Word2vec算法详解

1. 余弦相似度与向量归一化

在自然语言处理和机器学习中,余弦相似度是一种常用的度量方法。例如,假设有向量 (A = [1, 1]) 和 (B = [2, 0]),根据余弦相似度公式 (\cos(\theta) = \frac{A \cdot B}{\vert A \vert \vert B \vert}),可得:
[
\cos(\theta) = \frac{1\times2 + 1\times0}{\sqrt{2}\times2} = \frac{1}{\sqrt{2}}
]
此时,(\theta) 为 45 度。

向量常常会被“归一化”,即将向量缩放使其长度等于 1。缩放向量需要将向量除以其模(也称为“范数”),模可以通过勾股定理计算。以下是一些向量归一化的例子:
- 若 (A = [1,1]),则 (\vert A \vert = \sqrt{1\times1 + 1\times1} = \sqrt{2}),归一化后 (A/\vert A \vert = [\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}}])(约为 ([0.707,0.707]))。
- 若 (A = [2,0]),则 (\vert A \vert = \sqrt{2\times2 + 0\times0} = \sqrt{4} = 2),归一化后 (A/\vert A \vert = [\frac{2}{2}, \frac{0}{2}] = [1, 0])。
- 若 (A = [3,4]),则 (\vert A \vert = \sqrt{3\times3 + 4\times

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值