深入理解词嵌入:从理论到实践
1. 引言
在自然语言处理领域,神经网络语言模型需要具备一定的鲁棒性,以应对输入的微小变化。传统的独热编码虽然能对单词进行编码,但存在一定局限性。因此,我们需要更强大的词编码方式,即词嵌入(Word Embeddings)。
2. 独热编码的局限性
独热编码是一种简单的词编码方式,每个单词对应一个向量,向量中只有一个元素为 1,其余为 0。例如:
| WORD | ONE - HOT ENCODING |
| — | — |
| the | 0001 |
| dog | 0010 |
| cat | 0100 |
| is | 1000 |
虽然独热编码能区分不同的单词,但它无法体现单词之间的语义和语法关系。例如,“the cat is walking in the bedroom” 和 “a dog was running in a” 这两个句子,除了 “in” 之外,其他单词都不同,但它们的语义和语法有相似之处。独热编码无法捕捉到这种相似性,因此需要更好的编码方式。
3. 词嵌入的优势及工作原理
词嵌入是一种将单词表示为低维向量空间中的密集表示方式。与独热编码不同,词嵌入向量通常有多个非零元素,且向量的维度小于词汇表的大小。
例如,一个小词汇表在 2D 空间中的嵌入表示如下:
| NOUN | VERB | ARTICLE | PREPOSITION |
| — | — | — | — |
| Word | Encoding | Word | Encoding | Wor
超级会员免费看
订阅专栏 解锁全文
1057

被折叠的 条评论
为什么被折叠?



