biencoder方法
加载预训练模型
我们使用Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit预训练模型。
tokenizer = AutoTokenizer.from_pretrained("Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit",cache_dir = './SGPT-125M-weightedmean-msmarco-specb-bitfit')
model = AutoModel.from_pretrained("Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit",cache_dir = './SGPT-125M-weightedmean-msmarco-specb-bitfit')
获得query、doc的初始、结束标识符编码
SPECB_QUE_BOS = tokenizer.encode("[", add_special_tokens=False)[0]
SPECB_QUE_EOS = tokenizer.encode("]", add_special_tokens=False)[0]
SPECB_DOC_BOS = tokenizer.encode("{", add_special_tokens=False)[0]
SPECB_DOC_EOS = tokenizer.encode("}", add_special_tokens=False)[

本文介绍了使用Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit预训练模型的Biencoder方法。通过添加特殊标识符对query和doc进行编码,然后进行词嵌入和加权平均池化,最后计算cosine相似度来衡量两者之间的语义相似度。这种方法适用于简单的语义匹配任务,但不考虑句子间的逻辑关系。
最低0.47元/天 解锁文章
7154

被折叠的 条评论
为什么被折叠?



