基于PSI空间的类比检索研究
在知识探索和信息处理的领域中,如何高效准确地进行类比检索一直是一个重要的研究方向。本文将深入探讨基于谓词空间索引(PSI)的类比检索方法,详细介绍其原理、操作步骤、评估结果以及相关讨论和结论。
1. 谓词处理与PSI空间构建
在处理概念和谓词时,会将特定关系的权重设置得比一般关系更重,这是基于概念和谓词的逆文档频率(idf)之和来确定的。当一个概念出现在一个谓词关系中时,会将该谓词关系中另一个概念的元素向量与该谓词的元素向量绑定后,添加到该概念的语义向量中。例如,当“氟西汀(fluoxetine)”出现在“氟西汀治疗(TREATS)重度抑郁症(MDD)”这个谓词关系中时,会将“治疗(TREATS)”的元素向量与“重度抑郁症(MDD)”的元素向量绑定后,添加到“氟西汀”的语义向量$S(fluoxetine)$中,同时还会通过将“重度抑郁症(MDD)”的元素向量与一般关联(GA)的元素向量绑定来编码一般关联,即$S(fluoxetine) += E(TREATS) ⊗ E(MDD) + E(GA) ⊗ E(MDD)$。
PSI空间是从SemRep自然语言处理系统在过去十年中从MEDLINE引用中提取的22,669,964个谓词关系集合中推导出来的。SemRep系统利用统一医学语言系统(UMLS)中的领域知识从生物医学文本中提取谓词关系,例如从“使用氟西汀成功治疗重度抑郁症的患者”这句话中提取出“氟西汀治疗重度抑郁症”的谓词关系。在最近对SemRep的评估中,Kilicoglu等人报告其精度为0.75,召回率为0.64(F值为0.69)。
2. 类比检索方法
在构建好PSI空间后,就可以利用它来搜索概念的关系和类
超级会员免费看
订阅专栏 解锁全文
695

被折叠的 条评论
为什么被折叠?



