本文是LLM系列文章,针对《INTERS: Unlocking the Power of Large Language Models in Search
with Instruction Tuning》的翻译。
摘要
大型语言模型(LLM)在各种自然语言处理任务中表现出了令人印象深刻的能力。尽管如此,由于许多特定于信息检索的概念在自然语言中很少出现,它们在信息检索任务中的应用仍然具有挑战性。虽然基于提示的方法可以为LLM提供任务描述,但它们往往无法促进对IR任务的全面理解和执行,从而限制了LLM的适用性。为了解决这一差距,在这项工作中,我们探索了指令调整的潜力,以提高LLM在IR任务中的熟练程度。我们介绍了一个新的指令调优数据集INTERS,它包含三个基本IR类别的20个任务:查询理解、文档理解和查询文档关系理解。这些数据来源于43个不同的数据集和手动编写的模板。我们的实证结果表明,INTERS显著提高了各种公开可用LLM的性能,如LLaMA、Mistral和Phi在IR任务中的性能。此外,我们进行了广泛的实验来分析指令设计、模板多样性、小样本演示和指令量对性能的影响。我们将我们的数据集和经过微调的模型公开在https://github.com/DaoD/INTERS.