3、文本排序技术:从深度学习到 BERT 革命

文本排序技术:从深度学习到 BERT 革命

深度学习在文本排序中的兴起

在计算机视觉和自然语言处理(NLP)领域掀起热潮之后,深度学习也逐渐应用于文本排序。在信息检索领域,深度学习方法备受关注,主要有两个原因:
- 连续向量表示使文本检索摆脱了精确词匹配的限制。
- 神经网络有望避免手动设计特征的繁琐过程,解决了基于学习排序构建系统的一大难题。

在深度学习的文本排序方法中,可进一步将“前 BERT”模型与基于 BERT 的模型(更广泛地说,是基于 Transformer 的模型)区分开来。2019 年 TREC 的深度学习赛道首次大规模评估了 BERT 引入后的检索技术,结果表明,基于 BERT 的模型在不同团队的实现中,整体效果明显优于前 BERT 模型,这标志着文本排序的深度神经网络方法进入了不同的“时代”。

前 BERT 神经排序模型

前 BERT 神经排序模型通常分为两类:基于表示的模型和基于交互的模型。

基于表示的模型

这类模型专注于独立学习查询和文档的密集向量表示,在排序时通过简单的度量(如余弦相似度或内积)进行比较,以计算查询 - 文档的相关性得分。由于网络的查询和文档部分相互独立,这种方法允许离线计算文档表示。例如:
- 深度结构语义模型(DSSM):在深度学习时代早期,它从输入(查询或文档)中构建字符 n - 元组,并将结果传递给一系列全连接层以生成向量表示,在检索时通过余弦相似度比较查询和文档表示。
- 双嵌入空间模型(DESM):使用预训练的 word2vec 嵌入来表示文本,并通过聚合所有查询 - 文档词对的余弦相似度来计算相关性得分。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值