RA-DIT: RETRIEVAL-AUGMENTED DUAL INSTRUCTION TUNING

现有方法:
1.对于语言模型预训练进行昂贵的特定检索修改

2.使用了对数据存储器的事后集成,从而导致了次优的性能


改进: RA-DIT:检测增强双指令调优(两部分微调)  对任意LLM加入检索功能

两个微调步骤:
1.更新预训练语言模型,更好地利用检索信息

2.更新检索器,返回更相关的信息


模型:LLaMA+DRAGON+

根据语言模型的prompt进行检索,产生检索块,每个检索块放在prompt前,来自多个块的预测被并行计算并集成以产生最终输出。

指令微调步骤:
1.LM-ft:采用了监督学习的 fine-tuning 方法来训练模型,并在每个 fine-tuning prompt 前加入了一个从外部检索到的“background”字段。

2.检索微调(R-ft):采用了一种名为“generalized LM-Supervised Retrieval (LSR)” 的训练目标来更新查询编码器,该目标结合了监督学习和无监督学习的思想,并计算在监督任务和无监督文本补全任务的组合上

语言模型:LLaMA

检索器:基于双编码器的检索器架构

给定语料库c和查询q进行点积计算:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值