专利检索与翻译的数据处理方法研究
1. 专利检索中的伪相关反馈方法
1.1 一元查询模型
在专利检索中,为了估计每个术语的重要性,引入了一种基于加权对数似然的一元查询模型,公式如下:
[P(t|\theta_{orig}) = Z_t P(t|\theta_Q) \log \left(\frac{P(t|\theta_Q)}{P(t|\theta_C)}\right)]
其中,(Z_t = \frac{1}{\sum_{t\in V} P (t|\theta_{orig})}) 是归一化因子,定义为 (\theta_Q) 和 (\theta_C) 之间的 Kullback-Leibler 散度。这种方法倾向于那些与文档语言模型 (\theta_Q) 相似度高,而与集合语言模型 (\theta_C) 相似度低的术语。我们将这个原始查询模型称为 LM。
1.2 相关性模型估计
相关性模型用于从初始搜索的前检索文档(反馈文档)中选择最合适的术语(反馈术语)来扩展原始查询。查询扩展的反馈术语是基于它们与初始查询的相关性来选择的,公式如下:
[P(w|\theta_R) \propto \sum_{D\in D} P(w|D)P(Q|D)]
其中,(D) 是初始查询 (Q) 的反馈文档集合。在伪相关反馈(PRF)场景中,通过组合前检索文档的语言模型来推断潜在的相关性模型 (\theta_R),假设每个文档的权重与其初始查询得分成正比。在实验中,将估计的相关性模型与原始查询模型进行插值,公式如下:
[P(w|\theta_{exp}) = (1 - \lambda) P(w|\theta_{orig}) + \la
专利检索与翻译的数据处理方法研究
超级会员免费看
订阅专栏 解锁全文
1600

被折叠的 条评论
为什么被折叠?



