学习密集表示用于排序及未来方向展望
1. TAS - B 技术介绍
TAS - B(“B” 代表 “Balanced”)技术在排序任务中展现出了一定的优势。在 MS MARCO 段落排序测试集的开发集上,TAS - B 的实验结果显示出其有效性。在这些实验里,DistilBERT 作为学生模型,教师模型是由交叉编码器和 ColBERT 组成的集成模型。
与 Hofstätter 等人 2020 年的早期蒸馏工作相比,TAS - B 有了明显的改进。而且,该模型可以在单个消费级 GPU 上在 48 小时内完成训练,这与需要在 8 个 V100 GPU 上训练的 ANCE 和 DPR 形成了鲜明对比。TAS - B 可以被看作是一种构建训练批次的通用方法,在一定程度上与正在训练的密集检索模型是正交的。
2. 知识蒸馏在密集检索中的应用
本节所涉及的所有技术都为学生模型采用了基本的双编码器设计。不过,这些技术并非直接训练双编码器,而是运用蒸馏技术将更有效但速度较慢的模型(如交叉编码器和 ColBERT)的知识转移到双编码器中。
从经验上看,这种方法似乎更有效。除了 RocketQA 通过大批次大小和交叉编码器以“蛮力”消除假阴性来实现有效性之外,迄今为止最有效的密集检索模型似乎都基于知识蒸馏。然而,我们对其底层机制的理解仍不完整。
在重排序和密集检索的情境中,从更强大的模型向较弱的模型进行知识蒸馏似乎比直接微调较弱的模型更有效。在重排序中,模型的“能力”主要取决于其大小(层数、参数数量等);在密集检索中,即使模型本身大小相同,交叉编码器也明显比双编码器更“强大”。这可能是关键的见解,但还需要更多的研究来证实。
超级会员免费看
订阅专栏 解锁全文
642

被折叠的 条评论
为什么被折叠?



