2、专利检索与翻译的数据处理方法研究

专利检索与翻译的数据处理方法研究

最新推荐文章于 2025-11-04 13:01:44 发布

leaf8

最新推荐文章于 2025-11-04 13:01:44 发布

阅读量57

点赞数

CC 4.0 BY-SA版权

分类专栏：多学科视角下的信息检索创新文章标签：专利检索伪相关反馈查询扩展

本文链接：https://blog.youkuaiyun.com/leaf8/article/details/149516195

多学科视角下的信息检索创新专栏收录该内容

18 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

专利检索与翻译的数据处理方法研究

1. 专利检索中的伪相关反馈方法

1.1 一元查询模型

在专利检索中，为了估计每个术语的重要性，引入了一种基于加权对数似然的一元查询模型，公式如下：
[P(t|\theta_{orig}) = Z_t P(t|\theta_Q) \log \left(\frac{P(t|\theta_Q)}{P(t|\theta_C)}\right)]
其中，(Z_t = \frac{1}{\sum_{t\in V} P (t|\theta_{orig})}) 是归一化因子，定义为 (\theta_Q) 和 (\theta_C) 之间的 Kullback-Leibler 散度。这种方法倾向于那些与文档语言模型 (\theta_Q) 相似度高，而与集合语言模型 (\theta_C) 相似度低的术语。我们将这个原始查询模型称为 LM。

1.2 相关性模型估计

相关性模型用于从初始搜索的前检索文档（反馈文档）中选择最合适的术语（反馈术语）来扩展原始查询。查询扩展的反馈术语是基于它们与初始查询的相关性来选择的，公式如下：
[P(w|\theta_R) \propto \sum_{D\in D} P(w|D)P(Q|D)]
其中，(D) 是初始查询 (Q) 的反馈文档集合。在伪相关反馈（PRF）场景中，通过组合前检索文档的语言模型来推断潜在的相关性模型 (\theta_R)，假设每个文档的权重与其初始查询得分成正比。在实验中，将估计的相关性模型与原始查询模型进行插值，公式如下：
[P(w|\theta_{exp}) = (1 - \lambda) P(w|\theta_{orig}) + \la

会员秒杀 ¥9.9 重磅福利

超级会员免费看