53、深入理解词嵌入:从基础到应用

深入理解词嵌入:从基础到应用

1. 词嵌入前的基础方法

1.1 独热编码(One - Hot Encoding,OHE)

独热编码的思想很简单:每个唯一的词元(单词)由一个向量表示,该向量除了对应词元索引的位置为 1 外,其余位置均为 0。例如,仅使用“and”、“as”、“far”、“knew”和“quite”这五个词元,它们的独热编码表示如下:
| 词元 | 独热编码向量 |
| ---- | ---- |
| and | [1, 0, 0, 0, 0] |
| as | [0, 1, 0, 0, 0] |
| far | [0, 0, 1, 0, 0] |
| knew | [0, 0, 0, 1, 0] |
| quite | [0, 0, 0, 0, 1] |

然而,当处理实际文本时,词汇量会变得非常大。例如,文本语料库中有 3704 个唯一词元(不包括添加的特殊词元),独热编码向量会变得非常大且稀疏(即零的数量远多于非零的数量)。如果使用典型的英语词汇,可能需要 100000 维的向量,这显然不切实际。不过,独热编码产生的稀疏向量是一种基本的自然语言处理模型——词袋模型(Bag - of - Words,BoW)的基础。

1.2 词袋模型(Bag - of - Words,BoW)

词袋模型就像一个装满单词的袋子,它简单地将对应的独热编码向量相加,完全忽略了单词之间的潜在结构和关系。最终的向量只包含文本中出现的单词的计数。

以下是使用 Gensim 的 Dictionary doc2b

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值