SGPT:GPT Sentence Embeddings for Semantic Search解读
文章目录
概述
该方法基于如下论文:
[2202.08904] SGPT: GPT Sentence Embeddings for Semantic Search (arxiv.org)
该方法用于基于上下文信息对使用BM2.5算法获得的检索结果进行重排序。
先序知识
预训练模型
预训练在计算机视觉领域早已应用,NLP近些年随着BERT的出现也进入了预训练模型时代。
预训练模型优势:
- 在庞大的无标注数据上进行预训练可以获取更通用的语言表示,并有利于下游任务;
- 为模型提供了一个更好的初始化参数,在目标任务上具备更好的泛化性能、并加速收敛;
- 是一种有效的正则化手段,避免在小数据集上过拟合(一个随机初始化的深层模型容易对小数据集过拟合)
两大范式
浅层词嵌入
学习上下文独立的静态词嵌入,应用到下游任务时需要重新训练,例如word2vec。
预训练编码器
通过一个预训练的编码器能够输出上下文相关的词向量,解决一词多义的问题。这一类预训练编码器输出的向量称之为「上下文相关的词嵌入」。如GPT、BERT。
GPT
由于本文中提到的方法以GPT作为预训练模型,因此将着重介绍。
GPT是“