2、文本排序技术的发展历程与挑战

文本排序技术的发展历程与挑战

1. 引言

在信息检索和自然语言处理领域,文本排序起着至关重要的作用。假设空间非常大(来自任意大语料库的段落),因此文本排序对于从大量文本中筛选出相关信息至关重要。例如,在智能对话系统中,常见的生成回复的方法是从语料库中检索可能的回复并进行适当修改,这就需要对可能的回复进行排序,以确定其合适性。

本文使用“文本排序”而非更流行的“文档排序”,是因为在许多应用中,待排序的文本“原子单位”可能是句子、段落甚至推文。为了更好地理解BERT和Transformer如何革新文本排序,我们先来回顾一下信息检索在过去75年中的重要发展历程。

2. 简要历史
2.1 文本排序的开端

早在20世纪40年代中期,人们就认识到需要机器来改善信息获取。然而,文本排序的概念在当时还未出现。早期的搜索主要是对人类图书馆员工作的自动化,基于人类提取的内容描述符(索引术语)进行匹配,这些描述符通常来自预先定义的词汇表。搜索通过布尔匹配进行,没有排序。

1958年,Luhn提出考虑基于词频和分布的统计信息来计算相对重要性,从而产生“自动摘要”,这是tf - idf加权的先驱,但他并未实现和评估这些技术。

1960年,Maron和Kuhns更清晰地阐述了文本排序的概念,将信息检索问题描述为为用户提供最可能满足其信息需求的文档有序列表。他们提出根据用户在查询中使用索引术语的概率对其进行加权,即查询似然性,并引入了“相关性数字”(如今称为检索分数)的概念。

20世纪60年代和70年代,研究人员和从业者就“自动内容分析”与“传统”基于人类的索引的优劣进行了辩论。Salton在1972年

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值