NLP词嵌入相关8道经典基础题含解析_静态嵌入与上下文嵌入的区别-优快云博客

本文链接：https://blog.youkuaiyun.com/yyh2508298730/article/details/140083386

词嵌入

一、解释一下Word2Vec是如何学习的？什么是损失函数？什么是最大化？

学习过程

模型结构：
- CBOW 模型：通过给定上下文（背景单词），来预测中心词（目标词）。
- Skip-gram 模型：给定一个单词，预测这个单词周围的上下文（上下文中的其他单词）。
训练数据：
- 通过大量的文本语料库，提取出（目标单词，背景单词）的配对，构建训练数据。
学习过程：
- 模型初始化：为词汇表中的每个单词随机初始化一个one-hot向量。
- 前向传播：通过模型计算预测值，例如在 Skip-gram 中，给定一个单词，预测其上下文单词。
- 损失计算：根据预测值与实际值计算损失。
- 反向传播：通过反向传播算法更新模型参数（即单词的向量表示），以最小化损失。

损失函数

CBOW 模型的损失函数通常使用负采样（Negative Sampling）来提高训练效率。负采样的损失函数如下：
$\log (sigmoid ( \overline { w } _ { o } \cdot \overline { h } )) - \sum _ { i = 1 } ^ { k } \log sigmoid(( - \overline { w } _ { i } \cdot \overline { h })$
Skip-gram：同样使用负采样或分层 Softmax。负采样的损失函数类似：
$\sum _ { i = c - w } ^ { c + w } ( \log (sigmoid( \overline { w } _ { i } \cdot \overline { w } _ { c } )) + \sum _ { i = 1 } ^ { k } \log (sigmoid ( - \overline { w } _ { i } \cdot \overline { w } _ { c } )) )$
其中， $\vec{w_t}$ 是上下文单词的向量， $\vec{w_c}$ 是中心单词的向量， $\vec{w_i}$ 是负样本的向量。

最大化的目标

在训练过程中，Word2Vec 通过最大化正确中心单词和上下文单词之间的相似度，同时最小化与负样本之间的相似度来学习单词向量。这意味着模型会尝试：

最大化：目标单词与其真实上下文单词的相似度（内积）。
最小化：目标单词与随机采样的负样本单词的相似度（内积）。

二、你知道哪些获取词嵌入的方法？在什么情况下每种方法会更好？

获取词嵌入的方法有很多种，以下是一些主要的方法及其适用情况：

词袋模型（Bag of Words, BOW）：
- 方法：将文本表示为词频向量，每个单词作为一个维度，计数单词在文本中出现的频率。
- 优点：简单易实现，适合处理小规模数据。
- 缺点：无法捕捉单词之间的顺序和语义关系，高维度且稀疏。
- 适用情况：适用于简单的文本分类任务或文本检索任务，尤其在计算资源有限的情况下。
- 词袋 (BoW)步骤如下：

# 从sklearn导入词袋模型  
from sklearn.feature_extraction.text import CountVectorizer  
  
# 例句  
documents = ["Text analytics with Python", "Python for data science"]  
  
# 创建词袋模型  
vectorizer = CountVectorizer()  
bow_matrix = vectorizer.fit_transform(documents)  
  
# 词袋矩阵  
print(bow_matrix.toarray())

TF-IDF（Term Frequency-Inverse Document Frequency）：
- 方法：在词袋模型的基础上，引入逆文档频率，减少常见词对模型的影响。
- 优点：比词袋模型更能体现单词的重要性，减少高频词的干扰。
- 缺点：同样无法捕捉单词顺序和语义关系，仍然是高维且稀疏的表示。
- 适用情况：适用于文本分类、信息检索等需要考虑单词重要性的任务。
- 下面的代码片段演示了使用 TF-IDF 进行特征提取的基本设置。

# 从sklearn导入词袋模型TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
documents = ['your document text here']
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

Word2Vec：
- 方法：通过神经网络模型（CBOW 或 Skip-gram）学习单词的低维向量表示。
- 优点：能够捕捉单词之间的语义关系，向量表示稠密，适合大规模数据。
- 缺点：无法处理未见过的单词（OOV 问题），无法考虑上下文的多义性。
- 适用情况：适用于需要单词语义表示的任务，如文本分类、相似度计算、情感分析等。
- 演示如下：

from gensim.models import Word2Vec  
sentences = [['word1', 'word2', 'word3'], ['word2', 'word3']]  
model = Word2Vec(sentences, min_count=1)

GloVe（Global Vectors for Word Representation）：
- 方法：通过矩阵分解技术，将单词共现矩阵分解为低维向量表示。
- 优点：结合了全局统计信息和局部上下文信息，向量表示稠密。
- 缺点：同样存在 OOV 问题，训练时间较长。
- 适用情况：适用于需要高质量词嵌入的任务，如语义分析、文本生成等。
- 下面进行演示：

# 导入GloVe库
import glove  
from glove import Corpus, Glove  
corpus = Corpus()  
corpus.fit(sentences, window=10)  
glove = Glove(no_components=100, learning_rate=0.05)  
glove.fit(corpus.matrix, epochs=30, no_threads=4, verbose=True)  
glove.add_dictionary(corpus.dictionary)

FastText：
- 方法：在 Word2Vec 的基础上，引入 n-gram 特征，考虑单词内部的字符信息。
- 优点：能够处理未见过的单词，考虑单词的形态特征，向量表示稠密。
- 缺点：训练时间较长，对计算资源要求较高。
- 适用情况：适用于多语言处理、处理拼写错误或新词的任务。

from gensim.models import FastText  
model_ft = FastText(sentences, size=100, window=5, min_count=5, workers=4, sg=1)

ELMo（Embeddings from Language Models）：
- 方法：通过双向 LSTM 模型，从语言模型中提取上下文相关的词嵌入。
- 优点：能够捕捉单词在不同上下文中的不同意义，向量表示稠密。
- 缺点：模型较大，计算资源需求高。
- 适用情况：适用于需要高质量上下文表示的任务，如阅读理解、命名实体识别等。

from allennlp.modules.elmo import Elmo, batch_to_ids  

# 初始化 ELMo  
options_file = 'elmo_options.json'  
weight_file = 'elmo_weights.hdf5'  
elmo = Elmo(options_file, weight_file, num_output_representations=1)  
  
# 例句  
sentences = [['I', 'have', 'a', 'green', 'apple'], ['I', 'have', 'a', 'green', 'thumb']]  
  
# 将词转化为对应的索引  
character_ids = batch_to_ids(sentences)  
  
# 得到 ELMo 编码  
embeddings = elmo(character_ids)

BERT（Bidirectional Encoder Representations from Transformers）：
它彻底改变了机器理解人类语言的方式！！！
- 方法：通过双向 Transformer 模型，预训练语言模型，然后进行微调。
- 优点：能够捕捉深层次的上下文信息，适应性强，性能优越。
- 缺点：模型非常大，计算资源需求极高。
- 适用情况：适用于各种自然语言处理任务，如问答系统、文本分类、翻译等。

# BERT分词器的使用 
from transformers import BertTokenizer  
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')  
tokens = tokenizer.tokenize("Hello, how are you?")  
print(tokens)

三、静态嵌入和上下文嵌入有什么区别？

词嵌入主要分为两类：静态嵌入（Static Embeddings）和上下文嵌入（Contextual Embeddings）

静态嵌入（Static Embeddings）

定义：静态嵌入是每个单词一个唯一的固定向量表示，不考虑单词在不同上下文中的变化。
唯一性：每个单词的向量表示是唯一的，不随上下文变化。如 Word2Vec、GloVe 和 FastText。
在 Word2Vec 中，“bank”（银行）一词在所有情况下都有相同的向量表示，无论是指金融机构还是河岸。

上下文嵌入（Contextual Embeddings）

定义：上下文嵌入是每个单词的向量表示根据其在句子中的上下文动态变化。
上下文敏感：同一个单词在不同的上下文中会有不同的向量表示。如 ELMo、BERT、GPT-3 等。
在 BERT 中，“bank” 在句子 “I went to the bank to deposit money” 中的向量表示与 “I sat on the river bank” 中的向量表示不同，因为模型捕捉到了不同的上下文信息。

四、你知道的两种主要架构是什么，哪一种学得更快？

在自然语言处理（NLP）领域，有两种主要的模型架构：循环神经网络（Recurrent Neural Networks, RNNs）和Transformers。
Transformers 学习更快：由于 Transformers 架构可以并行处理整个序列数据，相较于 RNNs 的循环处理方式，训练速度明显更快。RNNs 需要逐步处理每个时间步的数据，而 Transformers 能够同时处理整个输入序列，大大加快了训练速度。
在这里插入图片描述

五、什么是负采样以及为什么需要负采样？你还知道哪些其他 Word2Vec 技巧，以及如何应用它们？

定义：负采样是一种训练神经网络模型的方法，用于有效地训练 Word2Vec 模型，特别是 Skip-gram 模型。
在 Word2Vec 中，训练模型需要计算词汇表中每个单词的 softmax 概率，这对于大词汇表来说计算成本非常高。负采样通过减少需要计算的负例数量，大大降低了计算复杂度，从而提高训练效率。

Word2Vec 的其他技巧

1. 层次 Softmax（Hierarchical Softmax）

定义：层次 Softmax 是一种替代标准 Softmax 的方法，通过构建霍夫曼树（Huffman Tree）来加速概率计算。

工作原理：

将词汇表组织成二叉树结构，每个叶节点表示一个词，每个内部节点表示一个二元决策。
训练过程中，通过路径上的二元决策来计算词的概率，大大减少了计算量。

适用情况：

适用于大词汇表的情况，比标准 Softmax 更高效。

2. 子词嵌入（Subword Embeddings）

定义：FastText 提出的一种方法，通过将单词分解为子词（如字符 n-gram）来处理未见过的单词。

工作原理：

将单词分解为多个子词（如 “playing” 分解为 “play”, “lay”, “ying”）。
训练模型时，利用子词的信息来生成词向量，从而能够处理拼写错误、新词等情况。

六、什么是密集嵌入和稀疏嵌入？提供例子。

稠密嵌入（Dense Embeddings）

定义：稠密嵌入是指每个单词由一个低维稠密向量表示，向量的每个维度都有非零值。
低维度：通常是几十到几百维。
稠密性：每个维度的值通常都是非零的，但不意味着没有0。
优点：

计算效率高：由于维度较低，计算效率高，适合大规模数据处理。
语义表达强：能够捕捉复杂的语义关系，适用于各种 NLP 任务。
Word2Vec：比如，单词 “king” 的稠密向量可能是 $[0.25, 0.48, - 0.12, 0.33, - 0.11, ...]$

稀疏嵌入（Sparse Embeddings）

高维度：通常是几千到几十万维。
稀疏性：大多数维度的值都是零，仅有少数维度是非零的。
简单生成：这些向量通常通过统计方法生成，如词袋模型（Bag of Words）和 TF-IDF。
一个稀疏矩阵 $\mathbf{A}$ 可能是这样的： $\mathbf{A} = \begin{bmatrix} 0 & 0 & 0 & 0.5 & 0 \\ 0 & 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0.75 & 0 & 0 & 0 \\ \end{bmatrix}$ 这里大多数元素是零，只有少数元素是非零。