自然语言的向量匹配算法对比

最新推荐文章于 2025-05-19 21:18:57 发布

堕落年代

最新推荐文章于 2025-05-19 21:18:57 发布

阅读量844

点赞数 11

分类专栏： AI 文章标签：算法自然语言处理

本文链接：https://blog.youkuaiyun.com/qq_45153375/article/details/146022590

版权

9 篇文章

订阅专栏

根据匹配机制的不同，自然语言向量匹配算法可分为三大类：基于特征的匹配、基于表征的匹配和基于交互的匹配。

核心思想：直接利用词汇、语法等表层特征计算文本相似度。
代表算法：BM25、TF-IDF、Jaccard相似度、N-gram。
匹配过程：
- BM25：通过词频（TF）、逆文档频率（IDF）和文档长度归一化计算得分。公式为：
  $\text{BM25}(Q,D) = \sum_{q_i \in Q} \text{IDF}(q_i) \cdot \frac{\text{TF}(q_i,D) \cdot (k_1 + 1)}{\text{TF}(q_i,D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgDL}})}$

其中， $k_1$ 和 $b$ 为调节参数， $∣ D ∣$ 为文档长度，avgDL为平均文档长度。

核心思想：将文本映射为稠密向量，通过向量相似度（如余弦相似度）衡量语义相关性。
代表算法：
- 词向量模型：Word2Vec（CBOW/Skip-gram）、GloVe。
Word2Vec：通过上下文预测目标词（Skip-gram）或反之（CBOW），生成词向量。例如，“king - man + woman ≈ queen”的向量运算。
GloVe：结合全局共现矩阵和局部上下文，优化词向量。例如，通过共现概率矩阵捕捉词间关系（如“ice”与“solid”的高共现概率）。
- 句向量模型：BERT、Sentence-BERT、Universal Sentence Encoder。
BERT：使用Transformer编码器生成上下文相关的词向量，句向量可通过[CLS]标记或词向量平均获得。例如，“银行利率”在金融上下文和地理上下文的向量不同。
匹配过程：
- Word2Vec示例：句子“猫在沙发上”和“猫咪在坐垫上”分词后，计算各词向量的平均值，再计算余弦相似度。
- BERT示例：输入两句子至BERT模型，输出句向量后计算余弦相似度。
优势：捕捉语义和上下文信息，解决同义词、多义词问题；适合语义相似度任务。

核心思想：直接建模文本间的细粒度交互（如词级对齐），而非独立编码。
代表算法：Cross-Encoder、ESIM（Enhanced LSTM）、MatchPyramid。
- Cross-Encoder：将两个文本拼接后输入Transformer，直接输出相似度得分。例如，输入“[CLS] 查询文本 [SEP] 文档文本 [SEP]”，通过全连接层预测匹配分数。
- ESIM：使用双向LSTM编码文本，通过注意力机制计算交互矩阵，再聚合特征进行分类。
优势：捕捉细粒度语义交互，精度高于表征方法；适合精排任务（如问答对匹配）。

算法	匹配方式	优势	局限性	适用场景
BM25	词频+逆文档频率	高效、无需训练、可解释性强	仅关键词匹配，忽略语义	搜索引擎、快速检索
Word2Vec	词向量余弦相似度	捕捉语义关系，支持词类比	无法处理未登录词，句向量需手工聚合	同义词扩展、短文本相似度
BERT	句向量余弦相似度	上下文感知，深度语义表示	计算资源大，向量可能聚集	语义搜索、问答系统
Cross-Encoder	文本交互+分类器	细粒度匹配，精度高	无法预编码，实时性差	精排、小规模数据集
DSSM	双塔模型+余弦相似度	适合大规模检索，可预编码文档	语义交互不足	推荐系统、广告匹配

流程：
1. 文档预处理：分词、去停用词。
2. 构建倒排索引：记录每个词的文档位置及频率。
3. 计算得分：对查询“深度学习框架”，计算每个文档的BM25得分并排序。
示例：文档A包含“深度学习框架PyTorch”得分高于文档B“机器学习基础”。

计算复杂度：
- BM25/TF-IDF：O(n)，适合实时检索。
- Word2Vec/GloVe：训练复杂度高（O(V·D)，V为词表大小，D为向量维度），推理快。
- BERT/Cross-Encoder：O(L²·H)（L为序列长度，H为隐藏层维度），需GPU加速。
资源消耗：
- 轻量级模型：BM25内存占用低，适合嵌入式设备。
- 深度学习模型：BERT需数GB显存，训练需TB级数据。