10、基于实体挖掘的查询时网络搜索技术解析

最新推荐文章于 2025-08-30 23:51:03 发布

leaf8

最新推荐文章于 2025-08-30 23:51:03 发布

阅读量208

点赞数

CC 4.0 BY-SA版权

分类专栏：多学科视角下的信息检索创新文章标签：实体挖掘网络搜索动态元数据

本文链接：https://blog.youkuaiyun.com/leaf8/article/details/149516219

多学科视角下的信息检索创新专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于实体挖掘的查询时网络搜索技术解析

1. 背景与相关工作

在当前网络搜索引擎的经典查询 - 响应过程中，利用静态和动态元数据来支持探索性搜索的想法应运而生。动态元数据指的是结果聚类算法的输出，其输入为命中结果的片段，这些片段依赖于查询词，无法事先提取、存储和索引。实体挖掘（NEM）应用于文本片段的结果也属于动态元数据。

我们可以对这种搜索场景进行建模。设 $D$ 为所有文档的集合，$C$ 为所有支持的类别集合，例如 $C = {$ 地点、人物、组织、事件 $}$，$M$ 为所有可挖掘实体的集合，每个实体用字符串描述。NEM 工具的功能可以通过两个函数 $m_c$ 和 $m_{ec}$ 来建模：
- $m_c : D \to 2^C$：输入一个文档 $d_1$，返回该文档中识别出的实体类别，例如 $m_c(d_1) = {$ 地点、人物 $}$。
- $m_{ec} : D \times C \to 2^M$：输入一个文档 $d$ 和一个类别 $c$，返回该文档中属于该类别的实体，例如 $m_{ec}(d_1, 地点) = {$ 克里特岛、雅典 $}$。

为了丰富经典网络搜索，有以下几种 NEM 方法：
|方法|描述|优缺点|
| ---- | ---- | ---- |
|RS|对返回答案的前几个命中结果的片段进行实时实体挖掘|速度快，但可能挖掘信息不全面|
|RC|对返回答案的前几个命中结果的完整内容进行实时实体挖掘|挖掘信息全面，但耗时较长|
|OC|对整个语料库进行离线实体挖掘|可快速获取信息，但索引规模可能与语料库相当，且不适用于无法完全访问资源的环境|
|OFQ|对频繁查询答案的前几个命中

会员秒杀 ¥9.9 重磅福利

超级会员免费看