精简集合搜索的自动扩展方法
1. 新相关性的影响
在相关模型中,使用特定模式(P)检索的每个文档都会对查准率和查全率产生影响。其目标是提高查准率,即便可能会牺牲一定的查全率。通过异步过程更新逆文档频率(IDF),该过程会覆盖语料库中的所有文档。同样的标准会影响熵和相关性计算。
搜索基于一组模式(P),这些模式尽可能限制对语料库(C)中文档的访问,即计算顺序 O(C) < 文档元素数量(Nelements - in - D),以最大化模型的可扩展性。这些模式是正则表达式,可根据假设 H3 简化为一组单词 {pkj}。由于自扩展过程,模式中的单词可以被其他单词替换。给定搜索 H,对文档的访问遵循函数 r(x),其定义如下:
r◦a(H) = {Di},其中 #r = Np,#a(H) = 1,Np + |{Dl}| ≪ Nc
2. 距离评估
距离评估标准基于以下几个假设:
- 单词(在 MLW 中表示为 HBE)是包含单词及其描述符的向量。
- 句子是过滤掉低相关性单词和标点后剩余的结构(Eci in MLW)。
- 段落是由句子之间的关系派生的结构(Ece in MLW)。
- 每个 HBE 和每个 Eci 都有一个权重。对于 Eci,其权重由句子的形态句法和当前语义目标的其他考虑因素派生,因此同一个 Eci 可能有多个权重。
3. 单词作为 HBE
单词被转换为名为 HBE 的向量,该向量表示一个包含从单词自动派生的一些元数据的结构。部分元数据是从数值特征转换而来的分类描述符,如下表所示:
| Field | Cats |
| — | —
超级会员免费看
订阅专栏 解锁全文
1068

被折叠的 条评论
为什么被折叠?



