提升检索效果的组合语言处理方法与混搭系统
在专利检索领域,由于数据库规模庞大、涉及专业术语以及使用场景多样,单一技术往往难以满足需求。因此,采用多种不同技术来从大型专利源中检索相关文档变得至关重要。
1. 文档相似度计算与排序
首先,通过公式 2 来计算文档间的相似度:
[
\sum_{RSec} \frac{SSM[RSec]}{N[RSec]} = SSM_{PAIR}
]
其中,$SSM_{PAIR}$ 表示列表中相邻检索项之间的总相似度指标,$N[RSec]$ 表示用于相似度测量的文档部分数量。之后,比较器会遍历结果列表,比较后续项序列的相似度指标,并按降序重新排序。这个过程会多次重复,直到达到给定的阈值(后续文档之间的相似度距离),从而使结果列表中相邻两项的相似度达到最大。
2. 糖尿病相关专利搜索的混搭系统
为了降低搜索糖尿病专利数据库的难度,并提供快速、最新的药物数据访问,构建了一个混搭服务系统,该系统包含四个模块:
- 糖尿病药物搜索模块 :可对整个药物数据库进行搜索,包括对可用字段的全文搜索。这是一种基于简单关键字的搜索,界面简单,用户访问方便。结果根据关键字频率排名,每个药物项可在原始来源(如 DailyMed 或 DrugBank)中查看。
- 糖尿病相关专利搜索组件 :能从全球数据库中搜索与糖尿病药物相关的专利。还实现了高级搜索选项,如根据特定专利特征(如引用、出版物)搜索、搜索相似数据或相关专利等。专利可直接在商标局(如 UPSTO、EPO、WIPO)以原始格式查看。
-