19、超越 BERT:文本排序与表示优化

超越 BERT:文本排序与表示优化

在信息检索领域,文本排序和表示优化是至关重要的研究方向。随着技术的发展,基于变压器(Transformer)的模型在这方面展现出了巨大的潜力。本文将介绍超越 BERT 的一些方法,包括基于序列到序列模型的排序以及查询和文档表示的优化技术。

基于序列到序列模型的排序:查询似然性

语言建模方法在信息检索中有着悠久的历史,查询似然性是其中一种简单直观的方法。它基于文档模型生成查询的概率对文档进行排序,被称为文本排序的生成式方法。最初的查询似然性基于一元语言模型,多年来,研究人员探索了更丰富的语言模型和复杂的模型估计技术。其中,基于多项式分布和狄利克雷平滑的查询似然性变体最为流行。

随着神经语言模型和预训练变压器的出现,生成式检索方法重新兴起。dos Santos 等人提出了一种使用预训练变压器实现查询似然性的方法,他们研究了编码器 - 解码器设计(如 BART)和解码器 - 仅设计(如 GPT)来模拟根据相关文本生成查询的过程。

在 GPT 的应用中,使用特定模板处理查询和相关文本对,模型通过教师强制进行微调以生成查询。推理时,文本的相关性得分是模型生成查询的概率。对于 BART,每个查询 - 相关文本对直接作为训练实例,相关文本为输入序列,查询为目标输出序列。

为了微调模型,dos Santos 等人尝试了三种不同的损失函数,发现铰链损失平均效果最佳。他们还比较了生成式模型和判别式方法,结果显示生成式 BART 模型在多个数据集的大多数指标上略优于判别式模型,且 GPT2 的效果不如 BART,这进一步证明了掩码语言模型(MLM)预训练比语言模型(LM)预训练能得到更好的模型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值