深入理解词嵌入:从基础到应用
1. 词嵌入前的基础方法
1.1 独热编码(One - Hot Encoding,OHE)
独热编码的思想很简单:每个唯一的词元(单词)由一个向量表示,该向量除了对应词元索引的位置为 1 外,其余位置均为 0。例如,仅使用“and”、“as”、“far”、“knew”和“quite”这五个词元,它们的独热编码表示如下:
| 词元 | 独热编码向量 |
| ---- | ---- |
| and | [1, 0, 0, 0, 0] |
| as | [0, 1, 0, 0, 0] |
| far | [0, 0, 1, 0, 0] |
| knew | [0, 0, 0, 1, 0] |
| quite | [0, 0, 0, 0, 1] |
然而,当处理实际文本时,词汇量会变得非常大。例如,文本语料库中有 3704 个唯一词元(不包括添加的特殊词元),独热编码向量会变得非常大且稀疏(即零的数量远多于非零的数量)。如果使用典型的英语词汇,可能需要 100000 维的向量,这显然不切实际。不过,独热编码产生的稀疏向量是一种基本的自然语言处理模型——词袋模型(Bag - of - Words,BoW)的基础。
1.2 词袋模型(Bag - of - Words,BoW)
词袋模型就像一个装满单词的袋子,它简单地将对应的独热编码向量相加,完全忽略了单词之间的潜在结构和关系。最终的向量只包含文本中出现的单词的计数。
以下是使用 Gensim 的 Dictionary 的 doc2b
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



