2、专利检索与翻译的数据处理方法研究

专利检索与翻译的数据处理方法研究

专利检索与翻译的数据处理方法研究

1. 专利检索中的伪相关反馈方法

1.1 一元查询模型

在专利检索中,为了估计每个术语的重要性,引入了一种基于加权对数似然的一元查询模型,公式如下:
[P(t|\theta_{orig}) = Z_t P(t|\theta_Q) \log \left(\frac{P(t|\theta_Q)}{P(t|\theta_C)}\right)]
其中,(Z_t = \frac{1}{\sum_{t\in V} P (t|\theta_{orig})}) 是归一化因子,定义为 (\theta_Q) 和 (\theta_C) 之间的 Kullback-Leibler 散度。这种方法倾向于那些与文档语言模型 (\theta_Q) 相似度高,而与集合语言模型 (\theta_C) 相似度低的术语。我们将这个原始查询模型称为 LM。

1.2 相关性模型估计

相关性模型用于从初始搜索的前检索文档(反馈文档)中选择最合适的术语(反馈术语)来扩展原始查询。查询扩展的反馈术语是基于它们与初始查询的相关性来选择的,公式如下:
[P(w|\theta_R) \propto \sum_{D\in D} P(w|D)P(Q|D)]
其中,(D) 是初始查询 (Q) 的反馈文档集合。在伪相关反馈(PRF)场景中,通过组合前检索文档的语言模型来推断潜在的相关性模型 (\theta_R),假设每个文档的权重与其初始查询得分成正比。在实验中,将估计的相关性模型与原始查询模型进行插值,公式如下:
[P(w|\theta_{exp}) = (1 - \lambda) P(w|\theta_{orig}) + \la

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值