32、语义信息检索:基于概念与领域关系的方法

语义信息检索:基于概念与领域关系的方法

1. 引言

在过去十年里,随着技术的进步,全球数字信息的数量持续增长。越来越多的数据在网络上发布,例如英文维基百科的文章数量如今已达到约400万页,而十年前仅为19700页。为了应对数据的爆炸式增长,搜索引擎技术有了重要的改进。然而,这些改进仍受限于关键词的使用,与“概念性”搜索的理念形成对比。在“概念性”搜索中,索引和搜索的基本元素是概念(代表一个单词或短语的含义),这种搜索范式通常被称为语义信息检索(SIR)。

利用语义来增强信息检索(IR)技术,突破基于关键词的搜索模型,是一个开放的研究课题,吸引了来自信息检索、知识表示与管理以及语义网(SW)等不同领域的众多研究人员的关注。由于该课题的研究视角多样,“语义搜索”这一表述在各种不同的任务中被使用。语义可以通过本体等形式化知识表示显式指定,也可以通过文本集合中单词的分布隐式推导(如潜在语义分析或显式语义分析)。如果使用本体,其使用方式通常取决于开发者是从SW还是SIR的视角出发。例如,在SW视角下,本体被用作可查询的知识库,将自然语言请求转换为SPARQL查询,直接在数据库中查找结果,这也可视为一种基于本体的问答(QA)形式;而在SIR视角下,本体被用作知识源,用于通过导航本体中的关系,用语义相关的概念扩展原始查询和/或文档中的概念。SIR系统还可分为针对网络或静态文本集合的系统。本文将遵循SIR视角而非SW视角。

2. 相关工作与贡献

在所有语义IR任务中,对文档中的概念进行标注是关键步骤。概念可以通过有监督或无监督方法自动识别,也可以由专家手动指定规则和/或关键词来识别。本体还可用于支持Phenote或Brat等标注工具。一旦在文本中识别出概念,就可用于以下任

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值