基于预训练Transformer的文本排序技术解析
1. 文本排序概述
文本排序的目标是根据用户的特定查询,从语料库中检索出文本并生成有序列表。最常见的文本排序形式是搜索,搜索引擎会根据用户查询,生成按相关性排序的文本列表,如网页、科研论文、新闻文章、推文等。在这种情况下,相关文本是指与用户请求主题相关且能满足用户信息需求的文本。
用户进行关键词搜索时,通常在搜索框中输入几个查询词,然后会得到包含排序后文本表示的结果。这些结果有多种称呼,如排名列表、命中列表、命中结果、“十个蓝色链接”或搜索引擎结果页面(SERPs)。排序后文本的表示通常包括标题、关联元数据、从文本中提取的“摘要”(例如,突出显示用户查询词的上下文关键词摘要)以及指向原始来源的链接。
2. Transformer模型的影响
Transformer模型引发了自然语言处理(NLP)和信息检索(IR)领域的范式转变。其中,谷歌在2018年10月推出的BERT(Bidirectional Encoder Representations from Transformers)是最著名的示例。这些预训练的Transformer模型在自然语言处理和信息检索等领域带来了显著的质量提升,在文本排序方面,BERT的效果无疑优于以往的方法,这一结果在许多文本排序任务、领域和问题表述中都得到了广泛验证。
Transformer模型的影响不仅局限于学术研究。2019年10月,谷歌博客文章证实公司通过将BERT模型应用于排名和特色摘要,改进了搜索功能。同年11月,微软博客文章也报道称使用大型Transformer模型为必应用户带来了显著的搜索体验提升。此外,Transformer模型在机器翻译等领域
超级会员免费看
订阅专栏 解锁全文
1902

被折叠的 条评论
为什么被折叠?



