Sparse Retriever
Sparse Retriever使用经典的IR方法来搜索相关文档,例如TF-IDF和BM25等,这些传统检索方法使用稀疏表示来衡量术语匹配,因此将其称为Sparse Retriever。
Yadav, V., Sharp, R., & Surdeanu, M. (2018). Sanity Check: A Strong Alignment and Information Retrieval Baseline for Question Answering. https://arxiv.org/abs/1807.01836v1
————————————————
版权声明:本文为优快云博主「北在哪」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/qq_43183860/article/details/121381192
Dense Retriever
稀疏检索不能解决术语不匹配问题,在问题与文档相似但不存在重复术语的情况下,稀疏检索会失去效果。过去几年,随着深度模型的发展,密集的语义表示逐渐用于检索,一定程度上解决了术语不匹配的问题。根据对问题和文档的编码方式以及对其相似性进行评分的不同,现代 OpenQA 系统中的密集检索器(Dense Retriever)大致可以分为三种类型:基于表示的检索器(
Representation-based Retriever)、基于交互的检索器(Interaction-based Retriever)和表示-交互检索器(Representation-interaction Retriever),如下图所示。
————————————————
版权声明:本文为优快云博主「北在哪」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.youkuaiyun.com/qq_43183860/article/details/121381192
1)基于表示的检索器
也称为双编码器或双塔检索器,采用两个独立或共享参数的编码器(如 BERT)分别对问题和文档进行编码,并通过计算两个表示之间的单个相似度得分来估计它们的相关性。
2)基于交互的检索器
这种检索器同时将问题与文档一起输入模型,让它们之间进行令牌级的交互。
3)表示-交互检索器
将基于表示和基于交互的方法相结合,以实现高精度和高效率。