10、基于实体挖掘的查询时网络搜索技术解析

基于实体挖掘的查询时网络搜索技术解析

1. 背景与相关工作

在当前网络搜索引擎的经典查询 - 响应过程中,利用静态和动态元数据来支持探索性搜索的想法应运而生。动态元数据指的是结果聚类算法的输出,其输入为命中结果的片段,这些片段依赖于查询词,无法事先提取、存储和索引。实体挖掘(NEM)应用于文本片段的结果也属于动态元数据。

我们可以对这种搜索场景进行建模。设 $D$ 为所有文档的集合,$C$ 为所有支持的类别集合,例如 $C = {$ 地点、人物、组织、事件 $}$,$M$ 为所有可挖掘实体的集合,每个实体用字符串描述。NEM 工具的功能可以通过两个函数 $m_c$ 和 $m_{ec}$ 来建模:
- $m_c : D \to 2^C$:输入一个文档 $d_1$,返回该文档中识别出的实体类别,例如 $m_c(d_1) = {$ 地点、人物 $}$。
- $m_{ec} : D \times C \to 2^M$:输入一个文档 $d$ 和一个类别 $c$,返回该文档中属于该类别的实体,例如 $m_{ec}(d_1, 地点) = {$ 克里特岛、雅典 $}$。

为了丰富经典网络搜索,有以下几种 NEM 方法:
|方法|描述|优缺点|
| ---- | ---- | ---- |
|RS|对返回答案的前几个命中结果的片段进行实时实体挖掘|速度快,但可能挖掘信息不全面|
|RC|对返回答案的前几个命中结果的完整内容进行实时实体挖掘|挖掘信息全面,但耗时较长|
|OC|对整个语料库进行离线实体挖掘|可快速获取信息,但索引规模可能与语料库相当,且不适用于无法完全访问资源的环境|
|OFQ|对频繁查询答案的前几个命中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值