Word2Vec词嵌入技术和动态词嵌入技术_word2vec为什么是静态嵌入,什么是动态词嵌入-优快云博客

Word2Vec（Word to Vector）是 2013 年由 Google 团队提出的无监督词嵌入模型，是一种静态词嵌入技术，核心目标是将自然语言中的离散词汇映射为低维、稠密的实数向量（即 “词向量”），让向量空间的距离和方向能够反映词汇的语义关联（如 “国王” 与 “女王” 的向量差近似 “男人” 与 “女人” 的向量差）。它解决了传统文本表示（如 One-Hot 编码）“维度灾难” 和 “语义孤立” 的问题，成为现代自然语言处理（NLP）的基础技术之一。

核心背景：为什么需要 Word2Vec？

在 Word2Vec 出现前，主流的文本表示方法存在明显缺陷，无法捕捉语义信息：

One-Hot 编码：将每个词表示为长度等于词汇表大小的向量，仅对应词的位置为 1，其余为 0。
- 缺陷：维度极高（词汇表 10 万则向量长度 10 万）、稀疏性强，且无法体现词与词的语义关联（如 “猫” 和 “狗” 的向量点积为 0，无任何相似性）。
Bag of Words（词袋模型）：统计词在文本中的出现频率，忽略语序和语义。
- 缺陷：同样无法捕捉语义，且 “重要” 和 “不重要” 的词权重无差异（需依赖 TF-IDF 优化，但仍无语义关联）。

Word2Vec 的核心突破是：用低维向量的 “数值关系” 刻画词汇的 “语义关系”，例如：