基于实体挖掘的查询时网络搜索技术解析
1. 背景与相关工作
在当前网络搜索引擎的经典查询 - 响应过程中,利用静态和动态元数据来支持探索性搜索的想法应运而生。动态元数据指的是结果聚类算法的输出,其输入为命中结果的片段,这些片段依赖于查询词,无法事先提取、存储和索引。实体挖掘(NEM)应用于文本片段的结果也属于动态元数据。
我们可以对这种搜索场景进行建模。设 $D$ 为所有文档的集合,$C$ 为所有支持的类别集合,例如 $C = {$ 地点、人物、组织、事件 $}$,$M$ 为所有可挖掘实体的集合,每个实体用字符串描述。NEM 工具的功能可以通过两个函数 $m_c$ 和 $m_{ec}$ 来建模:
- $m_c : D \to 2^C$:输入一个文档 $d_1$,返回该文档中识别出的实体类别,例如 $m_c(d_1) = {$ 地点、人物 $}$。
- $m_{ec} : D \times C \to 2^M$:输入一个文档 $d$ 和一个类别 $c$,返回该文档中属于该类别的实体,例如 $m_{ec}(d_1, 地点) = {$ 克里特岛、雅典 $}$。
为了丰富经典网络搜索,有以下几种 NEM 方法:
|方法|描述|优缺点|
| ---- | ---- | ---- |
|RS|对返回答案的前几个命中结果的片段进行实时实体挖掘|速度快,但可能挖掘信息不全面|
|RC|对返回答案的前几个命中结果的完整内容进行实时实体挖掘|挖掘信息全面,但耗时较长|
|OC|对整个语料库进行离线实体挖掘|可快速获取信息,但索引规模可能与语料库相当,且不适用于无法完全访问资源的环境|
|OFQ|对频繁查询答案的前几个命中