【第四章:大模型（LLM)】01.Embedding is all you need-(3)该如何做Embedding？Onehot to word2vec-优快云博客

本文链接：https://blog.youkuaiyun.com/IT_ORACLE/article/details/149192856

机器学习算法无法直接理解文本，必须将词语转换成数值表示。最初的方式是 One-hot 编码，但其存在以下问题：

于是，Word Embedding 概念被提出，用更紧凑、语义丰富的方式表示词语。

每个词被表示成一个与词表大小相同的向量，仅有一个维度为 1，其余为 0：

缺陷：

Word2Vec 提供了一种方式，将词语映射为一个低维的实数向量，使得向量之间的空间关系反映语义关系。

训练完成后，隐藏层的 W 就是每个词的 词向量。

使用反向传播与优化器（如 SGD）更新嵌入矩阵。为了提高效率，通常使用以下技巧：

Word2Vec 向量具有可解释的语义结构。例如：

vec("king") - vec("man") + vec("woman") ≈ vec("queen")

这种“向量算术”体现了词向量的强大表达力。

编码方式	特点	缺点
One-hot	简单实现	稀疏、高维、无语义关系
Word2Vec	稠密、低维、表达语义	需训练、难以处理新词

如需补充 GloVe、FastText、Transformer Embedding 或代码示例，也可以继续展开。需要图示、封面、流程图等可视内容也请随时告知。