Abstract & Introduction & Related Work
- 研究任务
- sentence embedding
- 已有方法和相关工作
- InferSent
- Universal Sentence Encoder
- Skip-Thought
- 面临挑战
- BERT在文本语义相似度上达到了sota,然而,它需要将两个句子都送入网络,这导致了大量的计算开销。在10,000个句子的集合中找到最相似的一对,需要用BERT进行大约5千万次推理计算(约65小时)。BERT的构造使其不适合于语义相似性搜索以及无监督的任务,如聚类
- 创新思路
- 使用连体和三连体网络结构,得出有语义的句子嵌入,可以使用余弦相似度进行比较。
这将寻找最相似对的代价从BERT/RoBERTa的65小时减少到SBERT的约5秒,同时保持BERT的准确性 - 之前的神经句嵌入模型都是从零开始训练,而我们在BERT/RoBERTa上面fine-tune,甚至可以少于20分钟
- 使用连体和三连体网络结构,得出有语义的句子嵌入,可以使用余弦相似度进行比较。
- 实验结论
- sota
Model
Sentence-BERT在BERT和RoBERTa的输出层加了一个pooling层,以获得一个固定大小的句子嵌入
我们试验了三种集合策略:
- 使用CLS-token的输出
- 计算所有输出向量的平均值(MEANstrategy)
- 以及计算输出向量的m