本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。
在设计检索增强型生成(RAG)系统时,选择嵌入模型是一个关键步骤。鉴于可选模型很多,识别相似模型可以帮助进行模型选择。
Beyond Benchmarks: Evaluating Embedding Model Similarity for Retrieval Augmented Generation Systems
https://ceur-ws.org/Vol-3784/short4.pdf
论文评估了RAG系统中嵌入模型的相似性。评估分为两个方面:首先,使用中心化核对齐(Centered Kernel Alignment)在成对级别上比较嵌入;其次,由于这对RAG系统特别相关,评估这些模型之间检索结果的相似性,使用Jaccard相似度和排名相似度。
作者比较了不同家族的嵌入模型,包括专有模型,在流行的基准信息检索(BEIR)的五个数据集上进行。通过实验,作者识别出了与模型家族相对应的模型集群。
为什么说编码模型是RAG的核心?
检